都别吵了,李飞飞把「世界模型」定义和重点讲清楚了
“世界模型,是所有人都会抵达的终点。这条路我现在已经 all-in 了,你跟不跟?”——谢赛宁这段话,其实道出了今年AI圈最热的一个风向。不管你是做视频生成,还是搞具身智能,但凡和投资人聊上几句,对方多半会问一句:“那你们在世界模型上,有什么规划?”
但说实话,眼下有一个挺尴尬的局面:大家都在谈世界模型,可对于“世界模型到底是什么”,压根儿没达成共识。
最近,李飞飞和World Labs团队发了一篇文章,专门针对这团乱麻做了一次系统性的梳理。这篇文章在社交媒体上引发了不小的讨论,确实值得认真读一读。以下是基于原文的整理。
问题的根源:概念混乱
文章一针见血地指出:如今各个领域都在声称自己在做世界模型——计算机视觉、机器人学、强化学习、生成式AI……可每个领域说的东西,其实是两码事。
举个直观的例子:一个能生成视觉效果极其逼真但物理上一推就倒的火焰视频模型、一个能即兴创作出可玩游戏的文本模型、以及一个能严格按燃烧物理学模拟火焰的引擎——这三样东西,如今全被贴上了“世界模型”的标签。
李飞飞认为,深层原因在于大家对“世界”这个词的定义本身就模糊。正如古希腊哲学家对世界的本质争论不休,现代AI也继承了这个问题,而且恰好是在这个领域最需要精确定义的时候爆发了。
理论框架:强化学习中的循环
为了理清头绪,文章搬出了强化学习领域的经典框架——部分可观测马尔可夫决策过程。这个框架描述了智能体与世界互动的循环:
智能体采取行动 → 行动改变世界状态 → 产生观察信息 → 驱动下一步行动
在这个过程中,“状态”指的是世界在某一时刻的完整描述——所有物体的位置、速度、属性等等。但问题在于,智能体永远无法直接感知状态本身,它只能通过观察(图像、传感器数据、视频帧)来获得对现实的片面认知。
李飞飞的判断是:
现在被称为“世界模型”的各种系统,本质上都是这个循环中不同部分的投影。它们各自在输出循环中的不同环节。
三种功能性的世界模型
基于这个框架,作者提出了三种不同功能的世界模型:
渲染器
渲染器负责输出观察信息,也就是人眼能理解的像素画面。衡量它好坏的主要标准很纯粹:画面有多逼真。
这里的例子包括文本生成视频模型(比如无人机航拍视觉效果)、以及交互式系统(比如Google的Genie 3或World Labs的RTFM),这类系统能根据用户的输入实时生成画面。它们的特点是:对三维结构没有显式的理解——它呈现的是“观看者会看到的样子”,而非“实际情况”。这就解释了为什么一个城市在俯视图上看起来完美无缺,可从城市内部开车进去,却发现建筑物全都“崩坏”了。
模拟器
模拟器输出的是世界状态本身——在几何、物理或动力学上都忠实于现实。相比渲染器只需要视觉上说服力,模拟器必须满足更严苛的结构契约:几何关系必须经得起推敲,物理过程要遵守牛顿定律,动态行为必须符合物理规律。
模拟器的用户有两类:一类是建筑师、设计师、电影制作人、游戏&开发者这些专业人士,他们需要超越视觉真实感的准确性;另一类是强化学习智能体、机器人控制器、自动驾驶系统这些计算机程序,它们把模拟器当成大规模训练场景,在虚拟环境中测试现实中危险、昂贵或不可能实施的场景。
规划器
规划器输出的是动作——智能体在给定观察和目标的情况下,应该采取的下一步行动。从某种意义上说,规划器是渲染器的逆过程:渲染器把行动作为输入转换为观察,规划器则以观察为输入产生行动,这样一来,感知与行动的循环就闭合了。
文中提到的视觉语言行动模型、基于模型的系统、以及新兴的世界行动模型,都是规划器的具体实现——目标都是让机器人在非结构化环境中做出正确的决策。
三者的隐秘关联
这三类模型虽然可以单独界定,但它们共享同一个根基:对世界如何运作的深层认识——几何、物理、动力学。理论上,一个真正理解世界的模型,应该能同时完成三项任务:从多个角度渲染一个杯子的样子,模拟杯子被推动时会发生什么,以及规划一只手该如何去拿起这个杯子。
文中也指出,当前最有趣的研究,已经开始有意识地模糊这三类模型之间的界限了。
为何模拟器是关键
别看在学术关注度上,模拟器可能是最低的,但从功能上看,它恰恰是最关键的一环。文章特意用了一整个章节来强调这一点。
渲染器因为商业成熟度最高,获得了最多的公众关注。很多文生图、文生视频产品正在消费者和企业市场快速扩张。但渲染器优化的是视觉可信度,而非物理准确性——这个天花板很重要:它们的输出足够美观,但不足以用于建筑设计或机器人训练。
规划器最具吸引力,但也最不成熟,和机器人学领域紧密相关。过去两年,我们确实看到了一些在视频中令人印象深刻的机器人演示,但坦诚地说,这些演示几乎全都局限在高度受控的实验室环境里,物体种类有限,任务时间短。没有任何一个系统被验证能应对真实部署所需的复杂性、多样性和持续性。演示视频与真正能在厨房、仓库或手术室可靠工作的机器人之间,还横着一个巨大的鸿沟。
模拟器正好是连接两者的桥梁。如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。
一句话:掌握了模拟的模型,可以把它的理解投影成像素供人类消费,也可以投影成动作预测供具身智能体使用。而只掌握了渲染或规划的模型,这两样都做不到。
从商业角度看,应用空间巨大。NVIDIA的Omniverse估计,在工厂、仓库、供应链和数字孪生领域就有超过1万亿美元的可寻址市场。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物发现,全都依赖某种形式的模拟。
领域内最困难的未解问题也集中在这里。具有显式几何、材质属性和物理标注的三维数据,比训练渲染器的互联网视频要少好几个数量级。仿真到现实的差距仍然存在。生成式模拟器还引入了新的风险:AI生成的几何在视觉上看似正确,但可能含有自相交或错误的尺度,从而产生无意义的物理。多物理场模拟(刚体、可变形物体、流体、布料交互)的规模化,仍然比单域模拟贵得多。
边界的融合趋势
当前领域最重要的模式,是这三个类别开始彼此融合。背后的共同洞察是:渲染、模拟和作用于世界所需的知识,在很大程度上是相同的。
文章提到,一些机器人实验室的最新工作表明,经过预训练的视频渲染器可以作为联合世界和动作预测的骨干,这就在渲染器和规划器之间搭起了一座桥。World Labs的Marble已经从单个模型同时输出高斯散射和碰撞网格,模糊了渲染器和模拟器之间的边界。系统在各个层级都在从被动输出演进为交互系统:渲染器变成了动作条件化的,模拟器生成的世界更加可控和可编辑,规划器从被动反应升级到主动推理。
统一世界模型的愿景
逻辑上的终点,是一个统一的世界模型——一个基础模型既能渲染照片级真实感的视图,又能产生物理精确的结构,还能规划行动序列,并根据下游消费者的需求在输出模态之间灵活切换。
但前面的挑战依然艰巨。数据环境很不均衡:渲染器有充足的互联网视频,而模拟器和规划器面临3D资产和机器人演示的严重短缺。优化视觉美感的时候,很可能牺牲机器人或高保真模拟所需要的精确性。在单一架构内协调这些张力,正是当前世界模型研究的定义性开放问题,也是World Labs在继续发展Marble时致力于解决的课题。
明确的方向
从八十年代末开始,业界就在押注一个假设:足够丰富的世界模型,是一个智能体观察世界、构建世界和作用于世界所需的全部。现在,这个“大赌注”正在驱动整个新一代的研究。
真正赋予这个“大赌注”分量的,是已经正在进行的收敛:三条线索——每一条都在独立推动和塑造着数十亿美元的产业——最初是独立的研究项目,现在开始表现得像是一个整体。当它们的边界开始坍塌时,将重塑某种更宏大的东西:机器智能与其所栖身的物理世界之间的关系——这正是空间智能的长期演进。
如果说语言赋予了机器讨论世界的能力,那么世界模型,就是机器最终理解、想象、推理和与世界互动的方式。