首页 > 教程攻略 > ai资讯 >Decart发布世界模型Oasis 3:可实时生成逼真驾驶环境,但仍存在局限

Decart发布世界模型Oasis 3:可实时生成逼真驾驶环境,但仍存在局限

来源:互联网 时间:2026-06-11 07:59:24

本周三,AI初创公司Decart正式发布了旗下最新交互式世界模型Oasis 3。这款模型能实时生成具有照片级真实感的驾驶环境,并且已经通过API向开发者开放。可以说,这是他们正式向物理AI领域发起的一次有力冲击。

Decart发布世界模型Oasis 3:可实时生成逼真驾驶环境,但仍存在局限

Decart最初的目标客户是需要大规模模拟稀有驾驶场景的自动驾驶公司,下一步还会拓展到机器人和更多物理AI应用。但更大的棋,其实在开发者生态上——从第一天起开放API,等于是在复制当年OpenAI围绕大语言模型做起来的那个模式。

“这会是第一个真正可用、开发者可以在上面编程的世界模型,”Decart联合创始人兼CEO Dean Leitersdorf说,“我相信在此基础上会涌现出一个完整的开发者社区。”

Decart目前已经积累了超过10万名开发者社区成员,不少人正基于其实时视频模型Lucy构建产品,主要集中在电商和直播领域。Oasis 3以这个基础模型为核心,代表着公司向物理AI的战略进军。定价方面,API访问费用是每秒0.02美元,企业级定价则根据具体使用场景来定。

如今,世界模型赛道已经相当拥挤。谷歌发布了研究预览版的Genie 3,李飞飞创立的World Labs推出了面向商业的Marble,Luma和Runway这些视频生成公司也在拼命把自己的模型往世界模型方向转型。

从融资节奏来看,Oasis 3的发布距离Decart完成3亿美元融资只有几周时间。Leitersdorf说,这一轮融资完全是“需求驱动的”——电商、直播和物理AI领域对模型的需求增长太快了。本轮过后,Decart估值接近40亿美元,丰田、Adobe、eBay都成了战略投资者,英伟达也在其中。为什么这些巨头感兴趣?Leitersdorf一句点明:它们都是潜在客户。

Oasis 3的核心优势,说到底还是两点:照片级真实感和无限生成能力。这背后,离不开Decart另一款核心产品——DOS(Decart优化栈)带来的效率突破。这套软件能让模型在英伟达、亚马逊和谷歌的硬件上都跑得极好,运行成本因此远低于竞争对手。

“这完全是建立在我们整个实时技术栈之上的,优化一直延伸到硬件层面,”Leitersdorf说,“正因为如此高度垂直整合,我们的模型运行成本才能比行业内任何竞争对手低一个数量级以上。”

他算了一笔账:公司成立以来,累计的算力支出“远不足”1亿美元,效率确实惊人。

Oasis 3支持多摄像头环境生成,包括一个前置摄像头和两个侧置摄像头,用来做系统训练和测试。和那些只提供有限演示或研究预览版本的产品不同,Decart允许开发者无限量生成模拟场景,这一点很关键。

表现最出色的其实还是在单一文本提示下的初始场景。用户可以连续数小时与生成环境交互,这本身也印证了Decart宣称的效率优势。然而,问题也随之而来——一致性。允许用户长时间生成世界,模型的场景一致性就会明显下降。

实测中,初始生成效果相当稳定,比如输入“纽约清晨街头场景”,一开始确实有那个味道。但只要你往前走,环境就开始“漂移”。几分钟后,纽约的痕迹基本消失,变成了一副泛化的西方城市街景。如果你想掉头回去看看刚才那个交叉路口,抱歉,它早就消失了,取而代之的是一个全新的环境。控制响应也不够灵敏,车辆的行驶方向很难精准把控——这其实是世界模型的通病。整体体验不像一个连贯的模拟系统,更像是一场迅速变得混乱的梦境意识流。

另一个老问题也出现了:车辆会直接穿越其他车辆,说明物理碰撞模拟还不完善。Leitersdorf把它称为“正在攻克的重大研究难题”,原因也很简单——正常驾驶数据比事故数据多太多了,模型自然学得不够好。

物理一致性为什么这么难维持?根源在底层架构上。Oasis 3采用的是自回归生成方式,逐帧逐帧地生成内容,每一帧都要回溯之前的内容来推测下一帧。这是很多世界模型的核心架构特征,也是极其消耗算力的机制。

为了改善一致性,Leitersdorf透露团队正在想办法扩展模型的记忆长度。

“每生成一帧,需要处理大约8000个Token,”他解释说,“以每秒数十帧的速度生成,相当于每秒要处理数十万个Token,上下文窗口很快就会被填满。我们正在研究如何实现更长的上下文,存储数百万个Token,同时把记忆压缩成更少的Token。”

在下一个版本中,一致性问题或许能部分得到解决。新版本将支持用户基于真实环境的视频(而不是图像)来启动世界生成。当然,Leitersdorf也坦言,世界模型作为一个研究领域,整体上还处于早期阶段。

但比起技术现阶段的局限,这位创始人更关注的是开发者介入之后会发生什么。

“这让我想起了大语言模型发展的早期,当时OpenAI为模型发明了API接口,”他打了一个比方,“正是开发者社区的兴起,通过不断探索和构建新的应用场景,才推动了整个领域的进步。”

“三个月后我们再聊,”他说,“届时你可能会看到100个开发者基于Oasis构建了100种不同的应用,每一款都让人惊喜。”

Q&A

Q1:Oasis 3是什么?它能做什么?

A:Oasis 3是AI初创公司Decart发布的最新交互式世界模型,核心能力是实时生成具有照片级真实感的驾驶环境。它支持多摄像头视角,可供自动驾驶公司用于模拟稀有驾驶场景,也向开发者开放API,允许无限量生成模拟场景,定价为每秒0.02美元。

Q2:Oasis 3目前存在哪些明显缺陷?

A:主要有三点:一是长时间运行后场景一致性显著下降,生成的环境主题会逐渐偏离初始提示词;二是无法还原已经生成过的场景,掉头返回时原始场景已消失;三是车辆会直接穿越其他车辆,说明物理碰撞模拟尚不完善。控制响应灵敏度不足也是用户在实际体验中反映的问题。

Q3:Decart是如何让Oasis 3的运行成本低于竞争对手的?

A:Decart依靠自研的DOS(Decart优化栈)软件实现了深度硬件级优化,使模型能在英伟达、亚马逊和谷歌的硬件上高效运行。凭借高度垂直整合的技术栈,Decart声称其模型运行成本比行业内其他竞争对手低一个数量级以上,公司成立以来累计算力支出也远不足1亿美元。