WBench – 美团推出的交互式视频世界模型多轮评测基准
来源:互联网
时间:2026-06-10 13:39:22
WBench是什么
视频世界模型领域,过去大家关注的是单帧生成质量,现在风向变了——能不能跟模型“玩”起来,才是真正的考验。美团LongCat团队推出的WBench,正是第一个系统性地评估交互式视频世界模型的多轮评测基准。它包含了289个测试案例和1058个交互轮次,覆盖自然、城市、幻想等6类场景与7种艺术风格。简单来说,WBench就像一台CT扫描仪,通过一个统一的交互接口,对20个前沿模型进行了深度“体检”,精准定位了模型从被动观看到主动交互的能力边界,也暴露出当前世界模型在多轮交互、导航控制和视角切换等维度上的核心短板。
WBench的主要功能
WBench的核心能力可以拆解成几个关键模块:
- :它支持6类场景(自然、城市、室内、工作区、幻想、运动),7种艺术风格(写实、动漫、卡通、油画、水墨、扁平、素描),以及3种视角(第一人称、第三人称、具身第一人称)。这就给模型搭建了一个足够丰富的“考场”。
多维度世界定义
- :包括导航、主体动作、事件编辑、视角切换。这意味着模型不仅要能看懂世界,还得能基于指令“动”起来。
四类核心交互
- :通过一个叫Action Router的模块,把文本指令、6DoF坐标和键盘动作,全部翻译成模型能够理解的标准化输入。这样一来,不管模型原生支持什么接口,都能被拉到同一张桌子上进行公平比较。
统一交互接口
- :从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行量化评分。其中不乏Na vScore、Gated Spatial Consistency这种硬核指标。
五维评测套件
- :这也是WBench最独特的地方——它支持连续多轮交互,可以精确测量模型在长时间交互后的性能衰减情况。
多轮长程评估
WBench的技术原理
如果把WBench看作一台精密的测量仪器,它的工作原理可以归纳为三个关键词:
- :WBench遵循“世界定义 + 指令集 + 统一交互接口 + 评测套件”的框架。世界定义负责搭建测试场景;指令集提供标准化的动作描述;统一交互接口通过Action Router转译异构输入;评测套件则从五个维度输出量化指标,形成完整的评估闭环。
四大核心要素架构
- :这里采用了“舞台与剧本分离”的思路——场景和交互各自独立配置,自由组合。这种解耦设计意味着,一旦某个模型表现失常,可以精准定位问题到底出在场景理解上,还是交互执行上。
场景与交互解耦设计
- :评测流程是自回归式的——每一轮的输出帧,都会作为下一轮的输入。这模拟了真实的交互场景。也正是通过这种方式,WBench才能检测到模型在长程交互中的错误累积效应。数据显示,模型的导航能力在多轮交互后平均下降了33个点,这可比单轮测试有说服力得多。
多轮自回归反馈机制
如何使用WBench
想把WBench跑起来,流程其实不复杂:先克隆GitHub仓库,安装好Python依赖,再从HuggingFace把包含289个测试案例和1058个交互轮次的数据集拉下来。接着,通过Action Router把待测模型接入统一交互接口,适配文本或动作输入协议。之后就是在配置文件中定义场景——选择场景类型、艺术风格、主体对象和观察视角。再从导航、主体动作、事件编辑、视角切换四类交互中组合测试动作。启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五维评测指标后,就可以跑测试了。单轮测试用来获取模型的基础能力得分,多轮测试则启动自回归模式,看模型在长程交互中扛不扛得住。最后,批量配置多个模型并行跑相同测试用例,自动生成的雷达图与得分表会让结果一目了然。
WBench的核心优势
客观来说,WBench确实有几个很明显的优势:
- :区别于传统单轮视频生成评测,WBench第一次系统性地评估模型在连续交互中的表现,填补了一个行业空白。
首个多轮交互评测基准
- :289个案例覆盖6大场景、7种风格、5类主体,而且场景与交互独立配置,可以精准定位模型短板。
覆盖全面且解耦
- :通过Action Router,无论是文本驱动模型(如Kling 3.0)还是专用世界模型(如HY-World 1.5),都能被公平地放在一起比较。
统一接口兼容异构模型
- :WBench的评估结果给出了几个相当有价值的结论——文本驱动模型擅长理解,专用世界模型擅长导航;视频质量与导航能力基本无关;多轮交互才是当前的核心难点。
揭示关键行业洞察
WBench的项目地址
- :https://meituan-longcat.github.io/WBench/
项目官网
- :https://github.com/meituan-longcat/WBench
GitHub仓库
- :https://huggingface.co/datasets/meituan-longcat/WBench
HuggingFace模型库
- :https://huggingface.co/papers/2605.25874
技术论文
WBench的同类竞品对比
| 维度 | WBench | WorldScore |
|---|---|---|
| 定位 | 多轮交互式视频世界模型评测 | 世界生成统一评测基准 |
| 发布时间 | 2026-05 | 2025 |
| 案例规模 | 289 案例,1058 交互轮次 | 3000 案例 |
| 交互类型 | 导航、主体动作、事件编辑、视角切换 | 轨迹条件控制,无自由交互 |
| 多轮支持 | 原生多轮自回归评测,支持长程衰减分析 | 单场景/多场景序列,非交互式 |
| 统一接口 | Action Router(文本/6DoF/离散动作) | 统一世界规格(布局+语义) |
| 评测维度 | 视频质量、设定遵循、交互遵循、一致性、物理真实性 | 可控性、质量、动态性 |
| 核心特色 | 多轮交互衰减诊断,场景与交互解耦 | 跨 3D/4D/I2V/T2V 统一评测 |
| 在线平台 | 离线评测套件 + HuggingFace 数据集 | 离线排行榜 |
WBench的应用场景
- :为视频世界模型(如Genie、Kling、Wan等)提供标准化评测工具,指导模型迭代优化。
世界模型研发
- :专门评测模型在虚拟环境中的导航控制能力,适用于机器人、自动驾驶等具身智能方向。
导航与具身智能评估
- :帮助AI视频/游戏产品评估长程交互体验,比如虚拟世界探索、AI游戏引擎等。
多轮交互产品测试
- :作为学术界研究世界模型、交互式视频生成的基础评测框架,推动领域标准化。
学术研究基准
- :为企业和开发者提供客观数据,辅助选择适合特定交互任务(如导航或编辑)的模型方案。
开源 vs 闭源模型选型