英伟达发布全开源物理AI大模型Cosmos 3,加速机器人感知与决策
在人工智能向物理世界迈进的关键节点,一项旨在让机器真正“看懂”并理解现实环境的技术突破正式亮相。英伟达近日发布了全球首款全开源的全模态物理人工智能基础大模型——Cosmos 3。这款模型被设计用于解决机器人、自动驾驶汽车等智能体在真实场景中感知、推理和规划的长期难题。

Cosmos 3的核心价值在于其
全模态理解与生成能力
破解物理AI泛化难题的关键
物理人工智能长期面临的核心挑战是,如何让智能体基于有限的训练数据和分散的仿真框架,在复杂多变的真实世界中具备可靠的泛化能力。Cosmos 3为此提供了系统性解决方案。其采用的混合架构,将擅长逻辑分析的推理Transformer与专精内容生成的Transformer相结合,使得模型能够先解析物体间的交互、运动规律及时空关联,再据此生成仿真视频或预测合理的动作轨迹。
该模型基于涵盖数十亿条样本的海量多模态物理数据集进行预训练。这意味着开发者可以以此为基础,用更少的数据和更低的成本,快速构建适用于特定场景的物理AI系统。根据官方信息,开发者主要可将Cosmos 3应用于三大方向:作为多模态图文大模型实现跨模态理解;作为世界模型来仿真环境并预判未来状态,以支撑模型训练;或作为世界动作模型的主干网络,辅助训练机器人完成专项任务。
性能领先与多样化版本选择
在多项主流评测基准中,Cosmos 3展现了领先的性能。在开源模型范围内,其世界生成精度在Artificial Analysis、Physics-IQ等多个基准测试中排名第一;动作策略能力领跑RoboLab和RoboArena;视觉理解能力则在VANTAGE-Bench等榜单位居榜首。
为了满足不同研发阶段的需求,英伟达为Cosmos 3提供了多个版本。
Cosmos 3 Super
Cosmos 3 Nano
Cosmos 3 Edge版本也即将上线
伴随模型的发布,英伟达还发起了“英伟达宇宙联盟”,汇聚了包括Agile Robots、Runway等在内的全球多家世界模型研发团队与AI开发者,旨在共同推动下一代物理世界模型技术的发展。这一系列举措,标志着AI从数字世界迈向物理交互的进程进入了新的加速阶段。