首页 > 教程攻略 > ai资讯 >Decart发布Oasis 3世界模型，为机器人训练注入真实感

Decart发布Oasis 3世界模型，为机器人训练注入真实感

来源：互联网时间：2026-06-12 07:59:06

前沿AI研究机构Decart最近放出了一个大招——最新世界模型Oasis 3，目标直指合成仿真与实体AI之间的那道天堑。简单说，就是要让机器人训练环境从“看起来像真的”变成“真的像真的”。 Decart发布Oasis 3世界模型，为机器人训练注入真实感

这款全新的视频输出模型，专为加速机器人和自动驾驶汽车操作系统的训练而设计。它的核心使命是打造那种能从容应对现实世界不确定性的智能硬件——不是实验室里温顺的演示品，而是能上路的真家伙。

训练数据匮乏，机器人研发面临重大挑战

机器人开发者长期被一个老问题折磨：用来训练机器在复杂物理环境中运作的有效数据，太少了。少得可怜。举个例子，自动驾驶汽车在静态停车场里学会绕着锥桶开，并不难。但那种环境跟真实道路差了十万八千里——尤其当天气和光照条件说变就变的时候。要让一辆车在倾盆大雨中穿越混乱的城市街道，同时对一个突然冲出的狗做出即时反应，那是完全不同的挑战。Oasis 3正是为破解这个难题而来的。大语言模型的发展速度远快于通用机器人（也就是实体AI），根本原因在于后者缺乏海量可用的媒体资源。Bessemer Ventures今年早些时候的研究报告点出了关键：大语言模型开发者可以从公共互联网上抓取数十亿网页，但驱动机器人与物理世界交互所需的视觉-语言-动作（VLA）模型，就没这么幸运了。 VLA模型的工作流程是：摄取环境数据、处理并理解当前状况，然后对输入做出反应。在训练方式上，开发者目前有三条路可选，但每条都不好走。第一条路：自建远程操控数据。具体做法是让人穿上特制装备，模拟机器人在特定场景中的动作。数据质量最高，但成本极高、效率极低，根本不可能扩展到所需规模。第二条路：使用网络公开视频。这类资源数量充足，但内容杂乱，实用性非常有限——环境缺乏一致性，无法按需复现所需的多样化条件，也缺少空间数据遥测和直接动作条件信息。第三条路：使用合成数据，算是折中方案。但现有物理引擎质量参差不齐，规则边界太僵硬，还原不了真实世界的细微变化。研究人员把这种差距叫作“仿真到现实的鸿沟”。说白了，现有用于生成机器人虚拟训练环境的AI软件，根本模拟不了真实世界中千变万化的随机状况——比如路面油污、仓库里异常易碎的纸箱。一旦遭遇这类突发情况，自动驾驶汽车和机器人往往彻底蒙圈。

Oasis 3如何弥合仿真与现实的差距

Decart表示，Oasis 3的设计目标就是突破现有虚拟训练环境的局限。它把照片级真实感的交互式动态图形能力，与强大的物理引擎融为一体。这两个东西被整合在一个高性能训练循环中，使得Oasis 3能够生成动作条件化视频流。开发者可以在其中模拟几乎任何能想象到的混乱场景，从而构建出更贴近物理世界的优质训练环境。开发者可以利用Oasis 3创建多视角环境，既高度逼真，又可精确控制。当自动驾驶汽车向左偏转时，实时生成流会在200毫秒以内即时调整视角，这个延迟完全满足强化学习的要求。该模型与英伟达的实体AI生态系统协同设计，运行在CoreWea ve的专用云基础设施之上，帧率达到每秒22帧，可以生成512×768×3分辨率的交互式虚拟环境。 Oasis 3原生支持三摄像头视角，以确保多角度的空间与时间一致性，帮助自主系统准确判断深度和周边环境。通过Decart的API对外开放，开发者可以轻松将其集成到现有的实体AI仿真工作流程中。

无限场景生成，让机器人为一切意外做好准备

要想让实体AI达到科幻作品中类人机器人的水平，开发者必须能够实时训练机器人应对各种极端边缘案例。这意味着需要创造出那些在实验室里根本无法复现的场景——比如，一辆卡车在行驶中货物脱落，恰好落在一辆摄像头已经被泥巴遮住的自动驾驶车辆前方。这正是Oasis 3能够实现的场景类型。借助简单的自然语言提示，开发者可以生成此类事件的无限变体，涵盖多种拍摄角度、各类恶劣天气条件以及不同路面类型。开发者或许终于找到了一种经济实惠的方式，让自己的模型接触数百万种不同的危险场景，确保它们能应对现实世界中一切可能发生的突发情况。

Q&A

Q1：Oasis 3是什么？它主要解决什么问题？

A：

Oasis 3是由AI研究机构Decart推出的世界模型，专为机器人和自动驾驶汽车的训练而设计。它的核心目标是弥合“仿真到现实的鸿沟”——即现有虚拟训练环境无法真实还原现实世界复杂性和随机性的问题。通过融合照片级真实感图形与强大物理引擎，Oasis 3能够生成高度逼真且可控的训练场景，帮助自主系统为现实中的各种极端情况做好准备。

Q2：VLA模型的训练为什么这么难？

A：

VLA（视觉-语言-动作）模型需要摄取环境数据、理解当前状况并做出反应，对训练数据的质量和多样性要求极高。现有三种训练方式各有局限：远程操控数据质量高但成本极高难以规模化；网络公开视频数量多但内容杂乱、缺乏空间数据；合成数据介于两者之间，但受限于物理引擎的僵化规则，难以模拟真实世界的细微变化和随机事件。

Q3：Oasis 3的技术性能指标是怎样的？

A：

Oasis 3运行于CoreWea ve的专用云基础设施之上，与英伟达实体AI生态协同设计，能够以每秒22帧的速度生成512×768×3分辨率的交互式虚拟环境。在响应延迟方面，当自动驾驶车辆改变方向时，视角调整延迟低于200毫秒，满足强化学习的实时性需求。此外，Oasis 3原生支持三摄像头视角，保证多角度的空间与时间一致性，并通过API向开发者开放集成。