英伟达联合清华推出 Gamma-World,打破多智能体虚拟仿真天花板
视频世界模型正在经历一场底层变革——从单人视角走向多人协作。过去的主流方案大多建立在单智能体假设之上,看似够用,但一旦面对多个玩家在同一虚拟世界里同时操作、彼此观察的复杂场景,就难免捉襟见肘。为了打破这道架构瓶颈,英伟达联手清华大学、多伦多大学及Vector Institute,正式推出了名为Gamma-World(γ-World)的全新多智能体世界模型方案。
多智能体世界建模的难题在哪?核心在于同时维护时间、跨视角以及交互这三重一致性。此前像Solaris这类研究虽然在双人协同上有所突破,但暴露了两个致命缺陷:一是身份编码破坏了置换对称性,二是全连接注意力机制导致计算量随着人数平方级暴涨。说白了,这套路子走不通,根本没法真正扩展到更多主体。

针对这些结构性缺失,Gamma-World从底层逻辑开始重新设计。团队首先提出了一种创新方案——正单纯形旋转智能体编码(Simplex Rotary Agent Encoding)。把所有玩家放置在几何空间正单纯形的顶点上,这样一来,所有玩家天然等距、地位平等。这套编码不含任何可学习参数,随机分配坐标即可生效。更妙的是,模型无需改动架构,就能实现“双人数据训练、四人场景直接跑通”的跨域泛化。
算力方面,传统的两两直接通信模式显然撑不住。为此,Gamma-World引入了稀疏枢纽注意力机制(Sparse Hub Attention),彻底摒弃了那条老路,改用一组可学习的枢纽Token作为共享世界状态的压缩中转站。计算成本从此降至线性复杂度。再加上独立的缓存技术加持,系统成功实现了每秒24帧的实时动作响应推演。换句话说,推演过程肉眼基本感觉不到延迟。
到了训练阶段,项目采用了三阶段师生蒸馏法。通过双向教师模型引导因果学生模型,成功将多步采样压缩到4步。这样不仅保障了动作的可控性,还有效缓解了自回归推演中常见的误差累积问题。
实验数据给出了很直观的证明。在多人Minecraft虚拟环境的记忆、建造等五类核心场景测试中,Gamma-World相比现有最强模型全面领先。评估视频质量的FVD指标平均降幅超过40%。更值得注意的是,这套框架已经成功迁移至真实双臂机器人的协同任务中,充分验证了其跨场景通用性。这不只是多智能体仿真能力的提升,未来更有可能为多臂医疗协同、工厂多机器人调度以及自动驾驶等物理AI领域,提供全新的大规模模拟生成基础设施。