2B 参数“四两拨千斤”,智元自研世界模型 GE 2.0 登顶 WorldArena 榜单
2B 参数“四两拨千斤”,智元自研世界模型 GE 2.0 登顶 WorldArena 榜单
5 月 30 日消息,“智元 AGIBOT”最新公众号 29 日发文宣布:具身领域热门榜单 WorldArena Track1(世界模型感知与动作响应赛道)最新评测结果揭晓,智元自研的世界模型 Genie Envisioner-Sim 2.0(以下简称 GE 2.0)登顶榜单。

先说说“世界模型”这个概念。简单理解,它就是能读懂物理世界规律的AI大脑。机器人要是掌握了这套能力,就能像人一样,知道杯子掉地上会碎、水总是往低处流、积木搭太高肯定会倒——这些常识不再是编程指令,而是模型自己的“直觉”。
在这次评测中,智元团队用了一个相当“坦诚”的策略:直接拿原生版本GE 2.0上场,没有针对赛题做任何特殊优化,仅仅是基于榜单数据做了一次基础微调。这相当于不穿“特技装备”去参赛,结果却拿了冠军。
这次发布的GE 2.0,一大亮点是首次在功能上完整覆盖了长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别这几个核心环节。可以说,它已经搭起了一个世界模拟器所需的技术闭环。
举个例子,在长时序推理任务中,GE 2.0的表现相当稳。画面质量随着推理时间拉长,其衰减幅度明显低于行业基线方案。即便是在连续推演40到50秒的长视频片段里,它生成的画面质量依然能超过基线模型前10秒的水准。这种稳定性,在现实应用中其实非常关键。
团队还做了一项很扎实的工作:大量闭环评测结果表明,GE 2.0在多项任务上都与真实世界保持着强相关性。不仅仅是宏观统计意义上的“成功率一致”,他们还进行了逐案(Case-by-case)的rollout结果对比,并借助混淆矩阵(Confusion Matrix)给出了量化的佐证。这进一步证明了GE 2.0作为策略评测器的可靠性。
技术上另一个值得关注的细节是:在奖励模型(Reward Model)的加持下,GE 2.0能够对闭环评测的rollout过程进行自动化筛选,将世界模型中产出的有效高质量数据精准回流给策略模型(Policy Model)。实验数据表明,这一机制在多项任务上都帮助策略模型实现了显著的性能提升。
来自上观新闻的报道还提到,GE 2.0这次是与英伟达最新模型DreamDojo、清华联合斯坦福的Ctrl-World团队等国内外顶尖AI团队同台竞争,最终脱颖而出。更让人意外的是,GE 2.0仅用20亿(2B)参数的模型,就击败了英伟达、微软等超大参数的旗舰模型。这也在某种意义上验证了:在人形机器人这个赛道上,轻量化模型的适配性并不输给那些巨型参数模型。