首页 > 教程攻略 > ai资讯 >WBench – 美团推出的交互式视频世界模型多轮评测基准

WBench – 美团推出的交互式视频世界模型多轮评测基准

来源:互联网 时间:2026-06-10 13:39:22

WBench是什么

视频世界模型领域,过去大家关注的是单帧生成质量,现在风向变了——能不能跟模型“玩”起来,才是真正的考验。美团LongCat团队推出的WBench,正是第一个系统性地评估交互式视频世界模型的多轮评测基准。它包含了289个测试案例和1058个交互轮次,覆盖自然、城市、幻想等6类场景与7种艺术风格。简单来说,WBench就像一台CT扫描仪,通过一个统一的交互接口,对20个前沿模型进行了深度“体检”,精准定位了模型从被动观看到主动交互的能力边界,也暴露出当前世界模型在多轮交互、导航控制和视角切换等维度上的核心短板。

WBench – 美团推出的交互式视频世界模型多轮评测基准

WBench的主要功能

WBench的核心能力可以拆解成几个关键模块:

  • 多维度世界定义

    :它支持6类场景(自然、城市、室内、工作区、幻想、运动),7种艺术风格(写实、动漫、卡通、油画、水墨、扁平、素描),以及3种视角(第一人称、第三人称、具身第一人称)。这就给模型搭建了一个足够丰富的“考场”。
  • 四类核心交互

    :包括导航、主体动作、事件编辑、视角切换。这意味着模型不仅要能看懂世界,还得能基于指令“动”起来。
  • 统一交互接口

    :通过一个叫Action Router的模块,把文本指令、6DoF坐标和键盘动作,全部翻译成模型能够理解的标准化输入。这样一来,不管模型原生支持什么接口,都能被拉到同一张桌子上进行公平比较。
  • 五维评测套件

    :从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行量化评分。其中不乏Na vScore、Gated Spatial Consistency这种硬核指标。
  • 多轮长程评估

    :这也是WBench最独特的地方——它支持连续多轮交互,可以精确测量模型在长时间交互后的性能衰减情况。

WBench的技术原理

如果把WBench看作一台精密的测量仪器,它的工作原理可以归纳为三个关键词:

  • 四大核心要素架构

    :WBench遵循“世界定义 + 指令集 + 统一交互接口 + 评测套件”的框架。世界定义负责搭建测试场景;指令集提供标准化的动作描述;统一交互接口通过Action Router转译异构输入;评测套件则从五个维度输出量化指标,形成完整的评估闭环。
  • 场景与交互解耦设计

    :这里采用了“舞台与剧本分离”的思路——场景和交互各自独立配置,自由组合。这种解耦设计意味着,一旦某个模型表现失常,可以精准定位问题到底出在场景理解上,还是交互执行上。
  • 多轮自回归反馈机制

    :评测流程是自回归式的——每一轮的输出帧,都会作为下一轮的输入。这模拟了真实的交互场景。也正是通过这种方式,WBench才能检测到模型在长程交互中的错误累积效应。数据显示,模型的导航能力在多轮交互后平均下降了33个点,这可比单轮测试有说服力得多。

如何使用WBench

想把WBench跑起来,流程其实不复杂:先克隆GitHub仓库,安装好Python依赖,再从HuggingFace把包含289个测试案例和1058个交互轮次的数据集拉下来。接着,通过Action Router把待测模型接入统一交互接口,适配文本或动作输入协议。之后就是在配置文件中定义场景——选择场景类型、艺术风格、主体对象和观察视角。再从导航、主体动作、事件编辑、视角切换四类交互中组合测试动作。启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五维评测指标后,就可以跑测试了。单轮测试用来获取模型的基础能力得分,多轮测试则启动自回归模式,看模型在长程交互中扛不扛得住。最后,批量配置多个模型并行跑相同测试用例,自动生成的雷达图与得分表会让结果一目了然。

WBench的核心优势

客观来说,WBench确实有几个很明显的优势:

  • 首个多轮交互评测基准

    :区别于传统单轮视频生成评测,WBench第一次系统性地评估模型在连续交互中的表现,填补了一个行业空白。
  • 覆盖全面且解耦

    :289个案例覆盖6大场景、7种风格、5类主体,而且场景与交互独立配置,可以精准定位模型短板。
  • 统一接口兼容异构模型

    :通过Action Router,无论是文本驱动模型(如Kling 3.0)还是专用世界模型(如HY-World 1.5),都能被公平地放在一起比较。
  • 揭示关键行业洞察

    :WBench的评估结果给出了几个相当有价值的结论——文本驱动模型擅长理解,专用世界模型擅长导航;视频质量与导航能力基本无关;多轮交互才是当前的核心难点。

WBench的项目地址

  • 项目官网

    :https://meituan-longcat.github.io/WBench/
  • GitHub仓库

    :https://github.com/meituan-longcat/WBench
  • HuggingFace模型库

    :https://huggingface.co/datasets/meituan-longcat/WBench
  • 技术论文

    :https://huggingface.co/papers/2605.25874

WBench的同类竞品对比

维度WBenchWorldScore
定位多轮交互式视频世界模型评测世界生成统一评测基准
发布时间2026-052025
案例规模289 案例,1058 交互轮次3000 案例
交互类型导航、主体动作、事件编辑、视角切换轨迹条件控制,无自由交互
多轮支持原生多轮自回归评测,支持长程衰减分析单场景/多场景序列,非交互式
统一接口Action Router(文本/6DoF/离散动作)统一世界规格(布局+语义)
评测维度视频质量、设定遵循、交互遵循、一致性、物理真实性可控性、质量、动态性
核心特色多轮交互衰减诊断,场景与交互解耦跨 3D/4D/I2V/T2V 统一评测
在线平台离线评测套件 + HuggingFace 数据集离线排行榜

WBench的应用场景

  • 世界模型研发

    :为视频世界模型(如Genie、Kling、Wan等)提供标准化评测工具,指导模型迭代优化。
  • 导航与具身智能评估

    :专门评测模型在虚拟环境中的导航控制能力,适用于机器人、自动驾驶等具身智能方向。
  • 多轮交互产品测试

    :帮助AI视频/游戏产品评估长程交互体验,比如虚拟世界探索、AI游戏引擎等。
  • 学术研究基准

    :作为学术界研究世界模型、交互式视频生成的基础评测框架,推动领域标准化。
  • 开源 vs 闭源模型选型

    :为企业和开发者提供客观数据,辅助选择适合特定交互任务(如导航或编辑)的模型方案。