首页 > 教程攻略 > ai资讯 >英伟达联合清华推出 Gamma-World，打破多智能体虚拟仿真天花板

英伟达联合清华推出 Gamma-World，打破多智能体虚拟仿真天花板

来源：互联网时间：2026-06-04 15:41:28

视频世界模型正在经历一场底层变革——从单人视角走向多人协作。过去的主流方案大多建立在单智能体假设之上，看似够用，但一旦面对多个玩家在同一虚拟世界里同时操作、彼此观察的复杂场景，就难免捉襟见肘。为了打破这道架构瓶颈，英伟达联手清华大学、多伦多大学及Vector Institute，正式推出了名为Gamma-World（γ-World）的全新多智能体世界模型方案。

多智能体世界建模的难题在哪？核心在于同时维护时间、跨视角以及交互这三重一致性。此前像Solaris这类研究虽然在双人协同上有所突破，但暴露了两个致命缺陷：一是身份编码破坏了置换对称性，二是全连接注意力机制导致计算量随着人数平方级暴涨。说白了，这套路子走不通，根本没法真正扩展到更多主体。

针对这些结构性缺失，Gamma-World从底层逻辑开始重新设计。团队首先提出了一种创新方案——正单纯形旋转智能体编码（Simplex Rotary Agent Encoding）。把所有玩家放置在几何空间正单纯形的顶点上，这样一来，所有玩家天然等距、地位平等。这套编码不含任何可学习参数，随机分配坐标即可生效。更妙的是，模型无需改动架构，就能实现“双人数据训练、四人场景直接跑通”的跨域泛化。

算力方面，传统的两两直接通信模式显然撑不住。为此，Gamma-World引入了稀疏枢纽注意力机制（Sparse Hub Attention），彻底摒弃了那条老路，改用一组可学习的枢纽Token作为共享世界状态的压缩中转站。计算成本从此降至线性复杂度。再加上独立的缓存技术加持，系统成功实现了每秒24帧的实时动作响应推演。换句话说，推演过程肉眼基本感觉不到延迟。

到了训练阶段，项目采用了三阶段师生蒸馏法。通过双向教师模型引导因果学生模型，成功将多步采样压缩到4步。这样不仅保障了动作的可控性，还有效缓解了自回归推演中常见的误差累积问题。

实验数据给出了很直观的证明。在多人Minecraft虚拟环境的记忆、建造等五类核心场景测试中，Gamma-World相比现有最强模型全面领先。评估视频质量的FVD指标平均降幅超过40%。更值得注意的是，这套框架已经成功迁移至真实双臂机器人的协同任务中，充分验证了其跨场景通用性。这不只是多智能体仿真能力的提升，未来更有可能为多臂医疗协同、工厂多机器人调度以及自动驾驶等物理AI领域，提供全新的大规模模拟生成基础设施。

英伟达联合清华推出 Gamma-World，打破多智能体虚拟仿真天花板

相关阅读

相关下载