硬氪专访 | 智源研究院院长王仲远:VLA不会死,但世界模型是未来
来源:互联网
时间:2026-06-15 15:10:14
世界模型热得发烫,但真正的“GPT时刻”还没到
过去几个月,“世界模型”(World Model)从一个学术黑话,硬生生被推成了AI和机器人行业里的高频词汇。这个变化背后,不是单纯的跟风,而是实打实的焦虑。
焦虑从哪来?两个层面。
一方面,过去两年具身智能的突飞猛进,反而把当前AI在物理世界里的短板暴露得彻彻底底——机器人能认出杯子,但不知道“推它一下就会掉”;能听懂“拧开瓶盖”的指令,却算不出到底该用多大的力。世界模型要补的,正是这块短板:让机器学会物理世界的规律和因果,也就是给“身体”配上一个真正的“大脑”。
另一方面,大模型从语言、视觉、多模态一路走过来,也需要从一个只会处理虚拟信息的“书生”,变成能理解真实物理世界的“行动派”。
资本、技术、产业资源一股脑地涌进来,可世界模型到底怎么“上岸”,谁也给不出一个标准答案。智源研究院院长王仲远认为,眼下全球对世界模型的探索,正被撕扯成四条完全不同的路——
第一条,
。像VLM、VLA这类模型,本质上还是在文本空间里预测下一个词,学到的更多是语言描述的世界,并不真正理解“推杯子会掉”这种物理后果。
第二条,
。典型代表就是Sora和Seedance等视频生成模型,它们在视觉空间里学习视频和图像,但学到的只是像素层面的“表象”,而非物理规律。
第三条,
。比如3D重建、李飞飞团队的World Labs Marble模型。不过,能重建出一个3D空间,不等于理解了这个世界——几何结构并不代表物理状态。
第四条,
。比如杨立昆的JEPA系列,预测的是视觉表征的压缩,但视觉嵌入的演化,不等于物理规律的演化。

智源研究院院长王仲远(图源/企业)
作为国内世界模型领域的中坚力量,智源研究院这次没有选上面任何一条路。他们尝试的是第五条路——
。简单说,就是把所有模态的信息都压缩进同一个潜空间(latent space),然后由不同的“解码器”(Decoder)按需还原成不同的输出形态。
打个比方,这个“潜空间”就像一张万能草稿纸。不管是看到的视频画面、听到的文字指令,统统先在纸上压缩成只有AI能懂的“密语笔记”。当机器人需要行动时,它就能根据同一份笔记,画出接下来的场景、演出机器人的动作、或者算出物体的位置和力度。
回顾智源研究院这几年的布局,就像一部层层递进的连续剧。从早年的“悟道”大模型把国内叙事从0推向公共视野,到后来把竞争焦点引导到原生多模态统一架构(悟界·Emu3/悟界·Emu3.5),再到明确提出向“下一状态预测(NSP)”跃迁,并把这套逻辑落地到悟·Physis和悟界·RoboBrain Orca这样的可部署系统中。有意思的是,智谱AI、月之暗面、面壁智能、银河通用这些行业头部公司的核心创始人,唐杰、杨植麟、刘知远、王鹤等人,也都曾在智源做过相关研究。
世界模型热得滚烫,但王仲远却保持着难得的冷静。在他看来,
——那个年代,数据是孤岛,路线没定论,Benchmark还在打架,ChatGPT式的爆发还遥遥无期。
他认为,世界模型接下来的硬仗,取决于几个维度的比拼。首先,模型不能只会生成看起来真实、但根本不符合物理规律的画面,比如“会飞的猪”。它得具备长时序一致性,不能只是几秒钟的短视频,而要能理解连续变化的状态。其次,
,比如理解“有盖子和没盖子的杯子同时掉落”会产生什么不同结果。最后,它得是一个能服务多种场景的基座模型,而不是只为一个Demo或单一任务服务。
落到应用侧,王仲远认为,世界模型的价值会在两个大方向兑现。除了突破具身智能的卡点、服务机器人领域之外,它还能广泛应用于严肃工业、物理仿真、科学研究等真实物理场景。“我们期待未来世界模型能成为真正的机器人大脑,解决现在VLA、VLM解决不了的问题,提供泛化、长程、复杂任务和主动探索能力。但这会是一个长期过程,可能需要三年甚至更长时间。”
近期,王仲远与硬氪等媒体聊了聊对世界模型的看法,以及世界模型与具身智能的衔接点。以下是采访实录(略经摘编):
世界模型四条分岔路
硬氪:为什么今年智源大会重点谈“世界模型”,它和过去的大模型路线是什么关系?
我们不是突然提出这个概念。早在2024年智源大会上,我们就对人工智能的发展路径做过预判:大语言模型之后,会进入原生统一多模态,再进入物理世界与硬件结合,进一步走向微观世界的AI for Science,最终通向物理AGI。今年大会有两大主题,一个是世界模型,一个是智能体。智能体现在非常热,尤其是AI Coding已经进入蓬勃爆发阶段;
世界模型则是我们认为人工智能从数字世界进入物理世界时必须面对的下一代基座模型问题。
现在主流的有四条路:
(如Gemini3):能感知多模态数据,通过语言思考并描述下一状态,具备规划决策能力。
适合视频生成,但不懂物理因果;
(如李飞飞World Labs的Marble):瞄准元宇宙、游戏等数字世界仿真;
(如LeCun的V-JEPA系列):预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
我们更倾向于在潜空间中学习世界知识,也就是Latent Relation,尝试把世界知识真正压缩到隐空间中,再通过不同Decoder输出Language、Action和Vision。智源选择尝试以语言为中心的分类和以视觉表征为中心的分类可能的融合,原因很简单:世界模型不仅要“看懂”物理世界,更要“理解”并“决策”。比如人类看到半杯水被打翻,大脑会自动预判“水流方向、地面材质对流速的影响”。这种能力需要将视觉信号与语言推理深度融合,而不是只生成画面。我也认同LeCun对“大语言模型局限性”的判断,但我并不认为语言模型不重要——语言是人类知识的载体,放弃语言就等于放弃了人类积累的物理常识。
硬氪:现在很多公司把视频生成模型称为世界模型,你怎么看?
我非常明确地认为,视频生成不等于世界模型。现在世界模型这个词被广泛使用,很大程度上是因为OpenAI发布Sora时用了“World Simulator”的表述。世界模拟器用于描述视频生成还算相对准确,但视频生成模型本身并不等同于世界模型。今年很流行的World Action Model,把视频和Action拼接起来,也不能完全代表真正意义上的世界模型。在我看来,
真正的世界模型应该是面向真实物理世界的下一代基座模型
。它不是单纯生成一段看起来很逼真的视频,而是要
理解真实物理世界的状态变化、动作因果、长时间序列一致性和泛化能力。
语言模型时代的核心是Next Token Prediction,也就是预测下一个词元。而世界模型时代的核心应该是Next Physical State Prediction,预测下一个物理状态。语言模型可以用Prompt激发能力,世界模型则需要用State激发能力。语言模型更多是被动观察,世界模型必须主动交互。语言模型可以是单模态或多模态,世界模型必须走向全模态。
硬氪:一个真正面向物理世界的世界基座模型,需要具备什么能力?
我认为至少需要几个能力。第一,要
,光学折射、重力、流体、物体运动都要符合真实物理规律。视频生成模型可能生成一群在天上飞的猪,但物理世界不会这样运行。如果机器人装上一个不能区分真实和虚幻的“大脑”,它可能误以为自己是钢铁侠,这会带来严重风险。第二,要有
模型不能只知道画面变化,还要知道Action会导致什么结果。比如,一瓶水有没有盖盖子,当人类看到它快掉落时,自然会预判不同后果,世界模型需要把这种动作与后果之间的关系学进去。第三,要有
。很多视频生成模型可以生成5秒、10秒甚至1分钟的视频,但并不代表它真正理解时间。如果给一个瓶子加水,旁边有一个时钟,镜头移开再移回来,模型要知道现实中确实经过了10秒或20秒,而不是随意生成一个看似合理的画面。第四,要有
。世界基座模型必须能应用在多个下游场景,就像大语言模型可以用于很多任务一样。它不能只是一个特定场景的工具,而要能服务具身、物理仿真、科学预测等多种任务。
世界模型或成为真正的机器人大脑
现在的具身模型多数还是单场景、被动任务执行者。它们可以在特定工厂、特定任务、特定数据下工作,比如看到包裹就执行抓取、分拣、放置。这类场景中,VLA或者更简单的模型都可能有效。但问题在于,它们很难泛化。真实物理世界是复杂的,有时间、空间、物理规律,也有人类创造的各种工具和环境变化。机器人如果只是被动执行指令,靠一个场景一个场景解决问题,就很难真正大规模落地。我认为,世界模型和具身智能是相互呼应的。具身智能暴露了当前模型在物理世界中的短板,世界模型则试图补上这个短板。
硬氪:现在也有一些论调称,“VLA已死”,世界模型是不是具身智能的必要路线,两者的关系是什么?
我的判断是:
它可以促进机器人在特定场景落地,甚至有些特定场景不一定需要更复杂的世界模型,只要看到包裹就执行动作,搜集特定数据就可以完成任务。但VLA有局限,比如泛化性不足,其次是长程任务、复杂场景和空间物理规律理解能力不足。再者,VLA模型往往比较大,部署响应速度和Latency较高,不一定能满足真实物理世界中高频动作执行的要求。世界模型要解决的是更底层的问题。
硬氪:世界模型对机器人执行任务的帮助,能否举一个具体的例子?
世界模型不应该只是生成数据,也不只是生成视频。它更重要的能力是基于当前Context和状态,预测未来可能发生的状态,并据此做出当下最优决策。可以用一个比喻来理解,有点像《奇异博士》看到不同未来,然后选择最优结果。机器人面对真实环境时,也需要类似能力。它要理解当前环境,预测不同动作会带来什么后果,再选择最合适的动作。比如机器人在酒店或家庭环境中,看到一个门、一只手势、一个声音指令、一个房间状态,它需要结合历史记忆和当前Context做出判断:是关厨房的门,还是关房间的门,还是采取其他动作。这不是简单的图像识别,也不是简单的语言指令执行,而是复杂推理后的物理决策。这就是我们说的世界模型要指挥Agent物理实体执行Action。执行之后,还要继续采集反馈,评估任务是否完成,并进入下一轮状态预测和决策。
这是我们的期待。我们希望未来的世界模型能够在具身场景下真机部署,解决VLA、VLM和传统动作执行无法解决的问题。机器人需要有泛化能力、长程任务能力、复杂推理能力、主动探索能力。它不仅要能看懂世界,还要能理解动作后果,规划未来状态,指挥机器人执行动作,并根据反馈修正决策。这件事不会短期完成。
世界模型是一个长期过程,瞄准的不是短期落地应用,而是下一个人工智能时代的核心能力。
短期内,具身机器人会先在具体场景中落地,采集数据,形成闭环;长期看,世界模型有机会成为真正意义上的机器人大脑。
王仲远:一个核心难点是数据,尤其是真实物理世界的数据。
大语言模型的爆发依赖互联网数据。世界模型要进入物理世界,也需要足够多、足够高质量的真实物理数据。现在真实世界数据仍然非常缺乏,而且是散落的孤岛,没有形成足够充足、可复用、可训练的数据体系。视频数据是目前最容易Scale Up(规模化)的数据,因为它海量存在,也确实包含大量真实物理世界的信息。但问题在于,现在科研技术还没有充分挖掘视频数据里的物理信息。除了视频,我们还需要真实交互数据、异构感知数据、动作轨迹数据、人类指令数据、机器人执行反馈数据。具身机器人在真实工厂、酒店、家庭等场景中工作时,会产生大量有价值的数据,这些数据闭环可能会加速世界基座模型的训练和爆发。
硬氪:如果真实物理世界数据不足,是否可以依靠仿真数据?
仿真数据有必要,能弥补真实数据采集不足,但我对完全依赖仿真数据构建更强模型是有疑虑的。因为仿真数据本身是人类构造的,它的精准度不一定足够,如果用不够精准的海量数据训练模型,能不能构建出真正理解物理世界的模型?这是需要验证的。未来可能会像语言模型训练中的数据配比一样,把互联网数据、视频数据、仿真数据、真实机器人数据、科学数据等,放在一起训练世界基座模型。但不同数据如何配比,现在还没有标准答案,数据质量和配比会直接决定模型能力,这很大程度上仍然依赖研究员的判断、实验和下游任务验证。最直观的验证方式就是具身智能——模型真正部署到机器人上,能不能在训练数据之外完成任务,能不能在复杂场景中做出合理决策,这些会成为判断数据和模型能力的重要标准。
硬氪:如果世界模型还很早期,具身智能短期如何落地?
短期内,具身智能会沿途下蛋,也就是先解决具体场景问题,比如工厂分拣、打包、贴纸、放充电器、合上盖子,或者酒店服务等To B场景。这些场景本身有商业价值,也能在落地过程中采集数据。机器人在真实场景中干活,会产生人类指令、人类交互、动作轨迹、任务结果等数据,这些数据反过来会帮助未来世界基座模型训练。所以我们不能等所有数据都Ready之后再探索技术路径,技术要先行,产品和系统会跟上。就像深度学习、Transformer、大语言模型的发展一样,技术路径往往早于产品爆发。
世界模型尚未到GPT时刻
具身智能肯定是最重要的应用场景之一,除此之外,世界模型也可以用于物理仿真、科学实验、AI for Science等场景。现在的很多模型无法解决这些真实场景中的问题,归根结底,我们希望有一个面向真实物理世界的基座模型,帮助人工智能更好地感知、理解物理世界,并具备推理和决策能力。
硬氪:如果类比大语言模型的发展阶段,世界模型现在处于什么阶段?
我认为
那个时候深度学习刚刚兴起,从2012年到2018年,再到2022年底ChatGPT发布,大语言模型真正爆发走了大约十年。现在世界模型还没有到GPT时代,因为数据非常缺乏,技术路线也没有完全收敛。但人工智能演化速度越来越快,世界模型可能三年到五年,随着视频数据进一步被挖掘,具身机器人不断在真实场景落地,真实物理世界数据不断累积,世界模型会更快进入爆发阶段。
硬氪:大语言模型时代,中美通常被认为有六到十二个月差距。世界模型时代,中国和海外是否还有差距?
大语言模型早期,我们更多是在跟随。世界模型是世界上最前沿的研究方向,概念、路线、模型形态都还没有完全收敛。我觉得世界模型没有差距,大家站在同一起跑线。
现在大家都说自己在做世界模型,但很多所谓世界模型其实是工具,或者是解决特定场景的模型,并不一定是通用世界基座模型。未来真正关键的竞争点,我认为包括几个方面:第一,能否具备真实物理可验证能力。模型不能只生成看起来真实的画面,而要符合真实物理规律。第二,能否具备长时序一致性。真实世界不是几秒钟的视频,而是连续变化的状态。第三,能否进行因果逻辑推断。模型需要理解动作和结果之间的关系。第四,能否作为基座模型,用不同数据微调后应用到多种场景,而不是只服务一个Demo或一个垂直任务。我认为世界模型最后一定需要通过系统和产品来证明。只有当它能在机器人、物理仿真、科学实验等真实任务中体现价值,行业才会逐渐收敛对世界模型的定义和路线判断。
硬氪:过去大模型积累的基础设施能否复用?世界模型对算力等等,有什么新的要求吗?
我比较乐观地认为,现有的大模型算力基础设施、训练框架、数据工具链都可以在很大程度上复用。悟界Emu3.5当时强调的一个理念,就是采用类似大语言模型的架构,并证明它能够Scale Up。到了世界模型阶段,依然需要处理声音、图像、动作轨迹、语言等各种模态,这些在多模态和具身领域已经有基础。但是,新的挑战在于Action和State怎么采集、怎么表达、怎么训练。世界模型会带来新的需求,但基础设施并不是完全从零开始。