首页 > 教程攻略 > ai资讯 >刚刚，李飞飞亲自下场定义世界模型

刚刚，李飞飞亲自下场定义世界模型

来源：互联网时间：2026-06-04 13:02:38

世界模型到底该怎么定义？李飞飞亲自下场划重点了

说实话，世界模型这个概念，眼下真是火得有点乱了。你随便搜一圈，就会发现各种东西都被往这个筐里塞：视频生成模型自称世界模型，能生成游戏的语言模型也叫世界模型，甚至物理引擎也被拉进来凑数……定义越描越模糊，搞得业内都跟着犯迷糊。

这不，连李飞飞都有点看不下去了。她刚写了一篇文章，直接给世界模型做了个清晰的功能分类。用她自己的话来说：“世界模型是当今人工智能领域最重要，也最被滥用的术语之一。”这话说得毫不客气，但确实点出了核心问题——大家都在讲世界模型，可到底什么是“世界”，什么是“模型”，根本没统一过。

古希腊人无法就世界的构成达成共识，因为“世界”从来不是一个单一的实体。人工智能也继承了同样的问题，而此时，这个领域恰恰最需要的就是精准性。

至少，得先分清三件事：

渲染、模拟、规划

。

话不多说，直接上干货。

世界模型的三大功能

李飞飞先从技术架构的角度拆解了世界模型的底层逻辑。

想象一个智能体——不管是人、机器人还是系统——它会采取行动，而这些行动又会改变世界的状态。所谓“状态”，就是对某一时刻世界所发生的一切的完整描述：每一个物体、每一个位置、每一个速度、每一个属性。观察呢，是主体对世界客观实在的局部感知；行动，则是主体对感知的回应。

主体→行动→状态→观察→返回

——这个循环，赋予了“世界模型”真正的技术意义。现在被叫作世界模型的各种东西，其实只是这个循环在不同环节上的投影。

具体到功能层面，李飞飞总结出三大能力：

渲染、模拟、规划

。

其中，

模拟器获得关注最少，但最关键，是连接渲染和规划的桥

。

渲染器

渲染器，核心任务就是输出让人看着舒服的图像。指标简单粗暴——视觉保真度。你看到的画面越真实、越漂亮，它就做得越好。

谷歌的Genie 3，以及李飞飞自家World Labs的RTFM，都属于这一类。这些模型本身并不具备对三维结构的真正理解。它生成的，是观众看到的画面，而不是实际存在的、可以交互的世界。

举个直观的例子：AI生成的无人机航拍镜头里，建筑物从空中俯瞰可能完美无瑕，但如果你开车穿过下面的城市，就会发现它们摇摇欲坠。问题就在这儿——渲染器只管“看起来对”，不管“物理上对”。

必须承认，

渲染器是目前商业上最成熟的技术

。像Nano Banana这样的产品，已经风靡全球，赚得盆满钵满。

但局限性也很明显。它优化的是视觉上的逼真度，而非物理上的精确度。输出效果确实吸睛，但如果要用它来做建筑设计验证，或者训练机器人在真实世界里干活，那就不太够用了。

规划器

规划器的工作逻辑更直接：输入观察和目标，输出下一步应该做什么。

VLA模型和新一代世界动作模型都属于这一类。这些系统决定了机器人在非结构化的现实世界中，该怎么行动、往哪儿走、做什么选择。

规划器最吸引眼球，也最具发展潜力

。具身智能的核心能力就体现在这里，大量热钱正疯狂涌入这个方向。

不过，李飞飞也点出了一个令人在意的现实：近年很多令人印象深刻的机器人演示，都发生在高度受限的实验室环境里。目标对象范围窄，任务周期短，没法在真实世界部署所需的复杂性、可变性和时间跨度下进行验证。换句话说，实验室里的“完美表现”，到了现实世界可能瞬间翻车。

模拟器

模拟器，输出的是可计算、可交互的状态。它强调几何、物理、动态的一致性——要求几何结构经得起检验，物理行为符合真实定律，动力学反应也跟现实世界一样。

这才是真正的“硬核”能力。

模拟器同时服务两个用户群体：

一边是建筑师、设计师、电影制作人和游戏&开发者，他们需要超越视觉逼真性的精确度，不能光看着像，用起来也得对。另一边是强化学习智能体、机器人控制器、自动驾驶系统——它们把模拟器当作训练场，大规模地与虚拟世界交互，测试那些在现实中危险、昂贵或根本不可能运行的场景。

李飞飞的核心判断是：

模拟，正是连接渲染和规划的桥梁

。

如果说语言是对世界的抽象，像素是对世界的投影，那么几何、物理和动力学就是世界本身。模拟器，就是视觉外观（对渲染器而言）和动作后果（对规划器而言）得以生成的结构骨架。

仿真模型能把理解转化成像素图像给人看，也能预测实体智能体的行为。机器人训练、自动驾驶测试、建筑可视化、工程设计、药物研发……都依赖于某种仿真技术。

商业前景极其广阔。英伟达的Omniverse平台，就瞄准了这一超万亿美元的潜在市场。

问题在于，能用来训练模拟器的数据太少了。具有明确几何形状、材料属性和物理标注的三维数据，比渲染器训练所用的互联网视频少了几个数量级。模拟本身就跟现实存在差距，而生成式模拟器还引入了新风险：AI生成的东西看起来正确，但细究起来又有很多不符合物理规律的地方。大规模多物理场模拟（刚体、可变形物体、流体、布料相互作用……）的成本更是比单域模拟高出几个数量级。

World Labs自家的Marble，目标就是要突破模拟环节的瓶颈。它支持文本、图像、视频或空间草图等多模态输入，生成可探索的3D环境，输出Gaussian splats和可供物理引擎操作的碰撞网格。但李飞飞自己也强调：Marble仅仅是这一领域漫长发展历程的开端，远没到终点。

边界正在消融

李飞飞在文章里还提出了一个关键洞察：

三类模型正在相互融合

。

渲染一个世界、模拟一个世界、在一个世界中行动——这三件事所需要的底层知识，在很大程度上是同一套知识。

举个例子：如果一个模型真正理解一个杯子是如何放在桌子上的，包括它的几何结构、材料属性、受力反应等等，那么它就应该能从这个杯子的任意角度完成渲染，模拟杯子被推动时会发生什么，规划一只手如何把它拿起来。你看，这三类能力，其实是对同一种底层理解的三种投影。

近期研究已经证明，至少在概念上，一个预训练视频渲染器可以作为联合世界预测和行动预测的骨干网络。这暗示了渲染器和规划器之间的一座桥梁：让同一个模型既想象接下来

会发生什么

，也想象接下来的

应该做什么

。

Marble从单个模型中同时输出Gaussian splats和碰撞网格，就是渲染器和模拟器之间边界消融的一个真实案例。每一个层级，都在从被动输出走向交互系统：渲染器正在变得以行动为条件，模拟器正在生成更可控、更可编辑的世界，规划器则从单纯反应，走向真正的审慎思考。

这个逻辑的终点，是一个统一的世界模型——一个基础模型，既能渲染照片级真实的视图，也能生成物理准确的结构，并规划行动序列。

核心的挑战仍然是数据。渲染器拥有海量互联网视频，但模拟器和规划器严重缺乏3D资产和机器人演示数据。追求视觉美感，可能会牺牲机器人或高保真模拟所需要的精度。如何在单一架构中调和这些矛盾，是今天世界模型研究最核心的开放问题。

但李飞飞的态度很乐观：方向已经很清楚了。

三条本来相互独立的研究线索，如今各自已经驱动并塑造了数十亿美元级别的产业。而现在，它们开始表现得像同一件事。

当它们的边界共同塌缩，这种变化将重塑一个更大的问题：机器智能，和它所处的物理世界之间的关系。

这就是空间智能的漫长弧线。语言给了机器一种谈论世界的方式，而世界模型，将是机器最终理解、想象、推理并与世界互动的方式。