NVIDIA正式推出Cosmos 3开放物理AI世界基础模型
先说几个核心判断:这次NVIDIA的动作,确实值得行业多看一眼。物理AI(也就是能让机器人在真实世界里干活、让车自己跑的那种AI),一直以来有个老大难问题——训练数据不够、模拟环境支离破碎、模型很难在现实里泛化。而这次他们拿出的方案,名字叫Cosmos 3。
简单说,Cosmos 3是一个全新的、开放的物理AI基础模型。它的内核,是一个混合Transformer架构。这玩意儿能把视觉推理、世界生成和动作预测整合到一个系统里——换句话说,模型在生成下一帧画面或者规划机械臂动作之前,会先“思考”一下物体怎么交互、运动轨迹怎么走、时间和空间关系怎么摆。
这个模型还是目前业内首个完全开放的全模态模型。什么意思?就是它能原生地理解并生成文本、图像、视频、环境音和动作,而且物理精确度做得相当高。以前做机器人训练,从数据准备到模型调完,走一轮可能要几个月;现在有了Cosmos 3,这个周期被压缩到了几天。
黄仁勋的原话是这么说的:“多模态推理语言、视觉和世界模型都在突破,物理AI爆发的时代已经近在眼前了。Cosmos 3这个系列,相当于给了开发者一套可以直接拿来用的前沿全模态模型,帮他们在构建机器人、智能汽车和视觉AI方面实现代际飞跃。”——能感知,能推理,能规划,还能在物理世界里真刀真枪地行动。
面向物理AI的全新架构
Cosmos 3要解决的核心问题,我刚才提了一嘴:让机器人、智能汽车或视觉智能体在现实世界里完成“泛化”。现实世界数据有限,仿真堆栈又碎成一片,怎么让模型学会举一反三?
它的解法,是把推理Transformer和专家生成Transformer绑在一起。这样一来,模型在生成视频和动作轨迹之前,先得把对象交互、运动、时空关系这些底层逻辑理清楚。训练数据也够硬——几十亿条文本、图像、视频、声音和动作轨迹样本,组成了目前最大型的多模态物理AI数据集之一。开发者拿这个做预训练基础,后续要改造成自己的系统,数据量和训练成本都能降下来不少。
Cosmos 3可以怎么用?三个典型场景:
- 当视觉语言模型用,具备跨模态的理解和推理能力;
- 当世界模型或视频基础模型用,模拟物理环境、预测未来世界状态,做训练和评估;
- 当世界动作模型的骨干网络用,直接帮机器人学习特定任务的动作策略。
在物理AI的基准测试里,Cosmos 3系列的成绩是目前开放模型里最靠前的。Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench这些世界生成精确性榜单上,它是第一;RoboLab、RoboArena这些动作策略评测里,它也是第一;VANTAGE-Bench和TAR排行榜的视觉理解能力,同样排在最前面。
针对不同开发阶段,Cosmos 3系列给出了几种选项:
- ——适合机器人与智能汽车模型的后训练阶段,对物理仿真精度和生成质量要求极高的那种场景;
Cosmos 3 Super
- ——要快速出高质量视频和做动作推理,这个版本效率很高;
Cosmos 3 Nano
- ——即将上线,目标是支持实时的边缘推理。
Cosmos 3 Edge
Cosmos Coalition:开放世界模型的全球协作
光有模型还不够,生态得建起来。NVIDIA这次还拉了一个叫Cosmos Coalition的组织,成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI,都是世界模型构建者和物理AI领域的领导者。大家开放地共建、共享,贡献模型、研究方法和评估技术,同时利用Cosmos 3、训练工具和NVIDIA DGX Cloud基础设施做大规模训练。
这个联盟的逻辑很清楚:开放环境里做出来的东西,兼容性更强,创新速度更快,整个物理AI行业也能跑得更顺。
开发者如何基于Cosmos构建
Cosmos现在已经不只是个模型,而是一个完整的物理AI平台,支撑着NVIDIA的整个物理AI堆栈。这个平台里已经包含了面向机器人、物理学、人体运动、辅助驾驶、仓库安全、空间推理等多个领域的数据集,还有全新的物理AI智能体技能,能支持神经场景重建、缺陷图像生成和视频增强等能力。
实际落地的玩家也已经开始出现了。机器人领域有Agile Robots、Doosan Robotics、LG Electronics、三星、Skild AI;智能汽车领域有理想汽车;视觉AI智能体这边,Centific、Fogsphere、Linker Vision、Milestone Systems和Yuan也都在基于Cosmos做研发,用于工业AI和智能空间。
可用性
目前,Cosmos 3 Super和Cosmos 3 Nano已经正式开放。实时推理版本的Cosmos 3 Edge即将上线。开发者可以到NVIDIA官网上直接体验,或者从Hugging Face下载开放模型,借助Hugging Face Diffusers和GitHub上的资源做定制化调整和合成数据生成,也可以把它部署为NVIDIA NIM。
对于模型构建者和软件提供商,GitHub上已经提供了物理AI智能体技能。通过Baseten、CoreWea ve、Microsoft Azure、Nebius、Deep Infra、Classmethod这些推理服务和云基础设施合作伙伴,也能更快地访问、定制和部署Cosmos,支撑核心推理和合成数据生成的工作负载。