Decart发布世界模型Oasis 3：可实时生成逼真驾驶环境，但仍存在局限

来源：互联网时间：2026-06-11 07:59:24

本周三，AI初创公司Decart正式发布了旗下最新交互式世界模型Oasis 3。这款模型能实时生成具有照片级真实感的驾驶环境，并且已经通过API向开发者开放。可以说，这是他们正式向物理AI领域发起的一次有力冲击。

Decart最初的目标客户是需要大规模模拟稀有驾驶场景的自动驾驶公司，下一步还会拓展到机器人和更多物理AI应用。但更大的棋，其实在开发者生态上——从第一天起开放API，等于是在复制当年OpenAI围绕大语言模型做起来的那个模式。

“这会是第一个真正可用、开发者可以在上面编程的世界模型，”Decart联合创始人兼CEO Dean Leitersdorf说，“我相信在此基础上会涌现出一个完整的开发者社区。”

Decart目前已经积累了超过10万名开发者社区成员，不少人正基于其实时视频模型Lucy构建产品，主要集中在电商和直播领域。Oasis 3以这个基础模型为核心，代表着公司向物理AI的战略进军。定价方面，API访问费用是每秒0.02美元，企业级定价则根据具体使用场景来定。

如今，世界模型赛道已经相当拥挤。谷歌发布了研究预览版的Genie 3，李飞飞创立的World Labs推出了面向商业的Marble，Luma和Runway这些视频生成公司也在拼命把自己的模型往世界模型方向转型。

从融资节奏来看，Oasis 3的发布距离Decart完成3亿美元融资只有几周时间。Leitersdorf说，这一轮融资完全是“需求驱动的”——电商、直播和物理AI领域对模型的需求增长太快了。本轮过后，Decart估值接近40亿美元，丰田、Adobe、eBay都成了战略投资者，英伟达也在其中。为什么这些巨头感兴趣？Leitersdorf一句点明：它们都是潜在客户。

Oasis 3的核心优势，说到底还是两点：照片级真实感和无限生成能力。这背后，离不开Decart另一款核心产品——DOS（Decart优化栈）带来的效率突破。这套软件能让模型在英伟达、亚马逊和谷歌的硬件上都跑得极好，运行成本因此远低于竞争对手。

“这完全是建立在我们整个实时技术栈之上的，优化一直延伸到硬件层面，”Leitersdorf说，“正因为如此高度垂直整合，我们的模型运行成本才能比行业内任何竞争对手低一个数量级以上。”

他算了一笔账：公司成立以来，累计的算力支出“远不足”1亿美元，效率确实惊人。

Oasis 3支持多摄像头环境生成，包括一个前置摄像头和两个侧置摄像头，用来做系统训练和测试。和那些只提供有限演示或研究预览版本的产品不同，Decart允许开发者无限量生成模拟场景，这一点很关键。

表现最出色的其实还是在单一文本提示下的初始场景。用户可以连续数小时与生成环境交互，这本身也印证了Decart宣称的效率优势。然而，问题也随之而来——一致性。允许用户长时间生成世界，模型的场景一致性就会明显下降。

实测中，初始生成效果相当稳定，比如输入“纽约清晨街头场景”，一开始确实有那个味道。但只要你往前走，环境就开始“漂移”。几分钟后，纽约的痕迹基本消失，变成了一副泛化的西方城市街景。如果你想掉头回去看看刚才那个交叉路口，抱歉，它早就消失了，取而代之的是一个全新的环境。控制响应也不够灵敏，车辆的行驶方向很难精准把控——这其实是世界模型的通病。整体体验不像一个连贯的模拟系统，更像是一场迅速变得混乱的梦境意识流。

另一个老问题也出现了：车辆会直接穿越其他车辆，说明物理碰撞模拟还不完善。Leitersdorf把它称为“正在攻克的重大研究难题”，原因也很简单——正常驾驶数据比事故数据多太多了，模型自然学得不够好。

物理一致性为什么这么难维持？根源在底层架构上。Oasis 3采用的是自回归生成方式，逐帧逐帧地生成内容，每一帧都要回溯之前的内容来推测下一帧。这是很多世界模型的核心架构特征，也是极其消耗算力的机制。

为了改善一致性，Leitersdorf透露团队正在想办法扩展模型的记忆长度。

“每生成一帧，需要处理大约8000个Token，”他解释说，“以每秒数十帧的速度生成，相当于每秒要处理数十万个Token，上下文窗口很快就会被填满。我们正在研究如何实现更长的上下文，存储数百万个Token，同时把记忆压缩成更少的Token。”

在下一个版本中，一致性问题或许能部分得到解决。新版本将支持用户基于真实环境的视频（而不是图像）来启动世界生成。当然，Leitersdorf也坦言，世界模型作为一个研究领域，整体上还处于早期阶段。

但比起技术现阶段的局限，这位创始人更关注的是开发者介入之后会发生什么。

“这让我想起了大语言模型发展的早期，当时OpenAI为模型发明了API接口，”他打了一个比方，“正是开发者社区的兴起，通过不断探索和构建新的应用场景，才推动了整个领域的进步。”

“三个月后我们再聊，”他说，“届时你可能会看到100个开发者基于Oasis构建了100种不同的应用，每一款都让人惊喜。”

Q&A

Q1：Oasis 3是什么？它能做什么？

A：Oasis 3是AI初创公司Decart发布的最新交互式世界模型，核心能力是实时生成具有照片级真实感的驾驶环境。它支持多摄像头视角，可供自动驾驶公司用于模拟稀有驾驶场景，也向开发者开放API，允许无限量生成模拟场景，定价为每秒0.02美元。

Q2：Oasis 3目前存在哪些明显缺陷？

A：主要有三点：一是长时间运行后场景一致性显著下降，生成的环境主题会逐渐偏离初始提示词；二是无法还原已经生成过的场景，掉头返回时原始场景已消失；三是车辆会直接穿越其他车辆，说明物理碰撞模拟尚不完善。控制响应灵敏度不足也是用户在实际体验中反映的问题。

Q3：Decart是如何让Oasis 3的运行成本低于竞争对手的？

A：Decart依靠自研的DOS（Decart优化栈）软件实现了深度硬件级优化，使模型能在英伟达、亚马逊和谷歌的硬件上高效运行。凭借高度垂直整合的技术栈，Decart声称其模型运行成本比行业内其他竞争对手低一个数量级以上，公司成立以来累计算力支出也远不足1亿美元。

Decart发布世界模型Oasis 3：可实时生成逼真驾驶环境，但仍存在局限

Q&A

Q1：Oasis 3是什么？它能做什么？

Q2：Oasis 3目前存在哪些明显缺陷？

Q3：Decart是如何让Oasis 3的运行成本低于竞争对手的？

相关阅读

相关下载