首页 > 教程攻略 > ai资讯 >WBench – 美团推出的交互式视频世界模型多轮评测基准

WBench – 美团推出的交互式视频世界模型多轮评测基准

来源：互联网时间：2026-06-10 13:39:22

WBench是什么

视频世界模型领域，过去大家关注的是单帧生成质量，现在风向变了——能不能跟模型“玩”起来，才是真正的考验。美团LongCat团队推出的WBench，正是第一个系统性地评估交互式视频世界模型的多轮评测基准。它包含了289个测试案例和1058个交互轮次，覆盖自然、城市、幻想等6类场景与7种艺术风格。简单来说，WBench就像一台CT扫描仪，通过一个统一的交互接口，对20个前沿模型进行了深度“体检”，精准定位了模型从被动观看到主动交互的能力边界，也暴露出当前世界模型在多轮交互、导航控制和视角切换等维度上的核心短板。

WBench的主要功能

WBench的核心能力可以拆解成几个关键模块：

多维度世界定义
：它支持6类场景（自然、城市、室内、工作区、幻想、运动），7种艺术风格（写实、动漫、卡通、油画、水墨、扁平、素描），以及3种视角（第一人称、第三人称、具身第一人称）。这就给模型搭建了一个足够丰富的“考场”。
四类核心交互
：包括导航、主体动作、事件编辑、视角切换。这意味着模型不仅要能看懂世界，还得能基于指令“动”起来。
统一交互接口
：通过一个叫Action Router的模块，把文本指令、6DoF坐标和键盘动作，全部翻译成模型能够理解的标准化输入。这样一来，不管模型原生支持什么接口，都能被拉到同一张桌子上进行公平比较。
五维评测套件
：从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行量化评分。其中不乏Na vScore、Gated Spatial Consistency这种硬核指标。
多轮长程评估
：这也是WBench最独特的地方——它支持连续多轮交互，可以精确测量模型在长时间交互后的性能衰减情况。

WBench的技术原理

如果把WBench看作一台精密的测量仪器，它的工作原理可以归纳为三个关键词：

四大核心要素架构
：WBench遵循“世界定义 + 指令集 + 统一交互接口 + 评测套件”的框架。世界定义负责搭建测试场景；指令集提供标准化的动作描述；统一交互接口通过Action Router转译异构输入；评测套件则从五个维度输出量化指标，形成完整的评估闭环。
场景与交互解耦设计
：这里采用了“舞台与剧本分离”的思路——场景和交互各自独立配置，自由组合。这种解耦设计意味着，一旦某个模型表现失常，可以精准定位问题到底出在场景理解上，还是交互执行上。
多轮自回归反馈机制
：评测流程是自回归式的——每一轮的输出帧，都会作为下一轮的输入。这模拟了真实的交互场景。也正是通过这种方式，WBench才能检测到模型在长程交互中的错误累积效应。数据显示，模型的导航能力在多轮交互后平均下降了33个点，这可比单轮测试有说服力得多。

如何使用WBench

想把WBench跑起来，流程其实不复杂：先克隆GitHub仓库，安装好Python依赖，再从HuggingFace把包含289个测试案例和1058个交互轮次的数据集拉下来。接着，通过Action Router把待测模型接入统一交互接口，适配文本或动作输入协议。之后就是在配置文件中定义场景——选择场景类型、艺术风格、主体对象和观察视角。再从导航、主体动作、事件编辑、视角切换四类交互中组合测试动作。启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五维评测指标后，就可以跑测试了。单轮测试用来获取模型的基础能力得分，多轮测试则启动自回归模式，看模型在长程交互中扛不扛得住。最后，批量配置多个模型并行跑相同测试用例，自动生成的雷达图与得分表会让结果一目了然。

WBench的核心优势

客观来说，WBench确实有几个很明显的优势：

首个多轮交互评测基准
：区别于传统单轮视频生成评测，WBench第一次系统性地评估模型在连续交互中的表现，填补了一个行业空白。
覆盖全面且解耦
：289个案例覆盖6大场景、7种风格、5类主体，而且场景与交互独立配置，可以精准定位模型短板。
统一接口兼容异构模型
：通过Action Router，无论是文本驱动模型（如Kling 3.0）还是专用世界模型（如HY-World 1.5），都能被公平地放在一起比较。
揭示关键行业洞察
：WBench的评估结果给出了几个相当有价值的结论——文本驱动模型擅长理解，专用世界模型擅长导航；视频质量与导航能力基本无关；多轮交互才是当前的核心难点。

WBench的项目地址

项目官网
：https://meituan-longcat.github.io/WBench/
GitHub仓库
：https://github.com/meituan-longcat/WBench
HuggingFace模型库
：https://huggingface.co/datasets/meituan-longcat/WBench
技术论文
：https://huggingface.co/papers/2605.25874

WBench的同类竞品对比

维度	WBench	WorldScore
定位	多轮交互式视频世界模型评测	世界生成统一评测基准
发布时间	2026-05	2025
案例规模	289 案例，1058 交互轮次	3000 案例
交互类型	导航、主体动作、事件编辑、视角切换	轨迹条件控制，无自由交互
多轮支持	原生多轮自回归评测，支持长程衰减分析	单场景/多场景序列，非交互式
统一接口	Action Router（文本/6DoF/离散动作）	统一世界规格（布局+语义）
评测维度	视频质量、设定遵循、交互遵循、一致性、物理真实性	可控性、质量、动态性
核心特色	多轮交互衰减诊断，场景与交互解耦	跨 3D/4D/I2V/T2V 统一评测
在线平台	离线评测套件 + HuggingFace 数据集	离线排行榜

WBench的应用场景

世界模型研发
：为视频世界模型（如Genie、Kling、Wan等）提供标准化评测工具，指导模型迭代优化。
导航与具身智能评估
：专门评测模型在虚拟环境中的导航控制能力，适用于机器人、自动驾驶等具身智能方向。
多轮交互产品测试
：帮助AI视频/游戏产品评估长程交互体验，比如虚拟世界探索、AI游戏引擎等。
学术研究基准
：作为学术界研究世界模型、交互式视频生成的基础评测框架，推动领域标准化。
开源 vs 闭源模型选型
：为企业和开发者提供客观数据，辅助选择适合特定交互任务（如导航或编辑）的模型方案。

WBench – 美团推出的交互式视频世界模型多轮评测基准

WBench是什么

WBench的主要功能

多维度世界定义

四类核心交互

统一交互接口

五维评测套件

多轮长程评估

WBench的技术原理

四大核心要素架构

场景与交互解耦设计

多轮自回归反馈机制

如何使用WBench

WBench的核心优势

首个多轮交互评测基准

覆盖全面且解耦

统一接口兼容异构模型

揭示关键行业洞察

WBench的项目地址

项目官网

GitHub仓库

HuggingFace模型库

技术论文

WBench的同类竞品对比

WBench的应用场景

世界模型研发

导航与具身智能评估

多轮交互产品测试

学术研究基准

开源 vs 闭源模型选型

相关阅读

相关下载