首页 > 教程攻略 > 热点新闻 >英伟达发布全开源物理AI大模型Cosmos 3，加速机器人感知与决策

英伟达发布全开源物理AI大模型Cosmos 3，加速机器人感知与决策

来源：互联网时间：2026-06-01 14:51:35

在人工智能向物理世界迈进的关键节点，一项旨在让机器真正“看懂”并理解现实环境的技术突破正式亮相。英伟达近日发布了全球首款全开源的全模态物理人工智能基础大模型——Cosmos 3。这款模型被设计用于解决机器人、自动驾驶汽车等智能体在真实场景中感知、推理和规划的长期难题。

Cosmos 3的核心价值在于其

全模态理解与生成能力

。它能够原生处理并关联文本、图像、视频、环境音效及动作轨迹等多种信息模态，在一个统一的混合Transformer架构下，实现视觉推理、世界仿真与未来动作预测的融合。英伟达宣称，该技术能将物理人工智能系统的训练与评估周期从传统的数月时间大幅缩短至数日。

破解物理AI泛化难题的关键

物理人工智能长期面临的核心挑战是，如何让智能体基于有限的训练数据和分散的仿真框架，在复杂多变的真实世界中具备可靠的泛化能力。Cosmos 3为此提供了系统性解决方案。其采用的混合架构，将擅长逻辑分析的推理Transformer与专精内容生成的Transformer相结合，使得模型能够先解析物体间的交互、运动规律及时空关联，再据此生成仿真视频或预测合理的动作轨迹。

该模型基于涵盖数十亿条样本的海量多模态物理数据集进行预训练。这意味着开发者可以以此为基础，用更少的数据和更低的成本，快速构建适用于特定场景的物理AI系统。根据官方信息，开发者主要可将Cosmos 3应用于三大方向：作为多模态图文大模型实现跨模态理解；作为世界模型来仿真环境并预判未来状态，以支撑模型训练；或作为世界动作模型的主干网络，辅助训练机器人完成专项任务。