首页 > 教程攻略 > ai资讯 >2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

来源：互联网时间：2026-05-31 08:12:27

2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

5 月 30 日消息，“智元 AGIBOT”最新公众号 29 日发文宣布：具身领域热门榜单 WorldArena Track1（世界模型感知与动作响应赛道）最新评测结果揭晓，智元自研的世界模型 Genie Envisioner-Sim 2.0（以下简称 GE 2.0）登顶榜单。

先说说“世界模型”这个概念。简单理解，它就是能读懂物理世界规律的AI大脑。机器人要是掌握了这套能力，就能像人一样，知道杯子掉地上会碎、水总是往低处流、积木搭太高肯定会倒——这些常识不再是编程指令，而是模型自己的“直觉”。

在这次评测中，智元团队用了一个相当“坦诚”的策略：直接拿原生版本GE 2.0上场，没有针对赛题做任何特殊优化，仅仅是基于榜单数据做了一次基础微调。这相当于不穿“特技装备”去参赛，结果却拿了冠军。

这次发布的GE 2.0，一大亮点是首次在功能上完整覆盖了长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别这几个核心环节。可以说，它已经搭起了一个世界模拟器所需的技术闭环。

举个例子，在长时序推理任务中，GE 2.0的表现相当稳。画面质量随着推理时间拉长，其衰减幅度明显低于行业基线方案。即便是在连续推演40到50秒的长视频片段里，它生成的画面质量依然能超过基线模型前10秒的水准。这种稳定性，在现实应用中其实非常关键。

团队还做了一项很扎实的工作：大量闭环评测结果表明，GE 2.0在多项任务上都与真实世界保持着强相关性。不仅仅是宏观统计意义上的“成功率一致”，他们还进行了逐案（Case-by-case）的rollout结果对比，并借助混淆矩阵（Confusion Matrix）给出了量化的佐证。这进一步证明了GE 2.0作为策略评测器的可靠性。

技术上另一个值得关注的细节是：在奖励模型（Reward Model）的加持下，GE 2.0能够对闭环评测的rollout过程进行自动化筛选，将世界模型中产出的有效高质量数据精准回流给策略模型（Policy Model）。实验数据表明，这一机制在多项任务上都帮助策略模型实现了显著的性能提升。

来自上观新闻的报道还提到，GE 2.0这次是与英伟达最新模型DreamDojo、清华联合斯坦福的Ctrl-World团队等国内外顶尖AI团队同台竞争，最终脱颖而出。更让人意外的是，GE 2.0仅用20亿（2B）参数的模型，就击败了英伟达、微软等超大参数的旗舰模型。这也在某种意义上验证了：在人形机器人这个赛道上，轻量化模型的适配性并不输给那些巨型参数模型。

2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

相关阅读

相关下载