首页 > 教程攻略 > 热点新闻 >智源大会上，我看到了VLA与世界模型之争已经落幕！类脑架

智源大会上，我看到了VLA与世界模型之争已经落幕！类脑架

来源：互联网时间：2026-06-15 19:51:17

6月12日，智源大会在中关村国际创新中心拉开帷幕。

今年这一届，规模比去年大了不少，海外的声量也明显上来了。看点虽多，但最让人盯紧的，还是「具身产业CEO」和「具身智能与人形机器人」这两个专场。

原因其实很简单：攒了一肚子想问的问题，答案大概率就压在这两场里。比如：“WM在具身领域到底该怎么用？”、“机器大脑的下一代架构应该是怎样的？VLA还是WAM或者其他？”、“物理AI的边界在哪里？数据飞轮怎么转起来？”——还包括全身运控的思路与可进化学习。

从这些问题就能看出来，我们一直想要的回答，不在本体，而在大脑。

过去几个月，关于VLA和世界模型路线之争的文章，在圈里已经不算少。一些人把这两个路线看作“二元对立”，另一些人则认为两者不存在架构上的对立，完全可以“相互融合”。

这个事情困扰了不少人。

而这次大会上，谁也没想到，为大家递上那个一直想要的答案的，是智平方创始人兼CEO郭彦东。

上台没几分钟，就把这场吵了一年的世界模型与VLA之争给收了，顺手还把下一代机器人大脑的解法摆上了台面。

上来就终结了世界模型与VLA之争

过去一年，机器人产业快速升温，一个问题反复被拿出来讨论：机器人到底该走VLA，还是走世界模型？

不可否认，世界模型，是当下全球具身圈最热的话题之一。

但这次，郭彦东一上台就当了回「终结者」，给这场争论甩出一个明确判断：世界模型不是VLA的竞争路线，而是VLA体系里的核心组成部分。

不少学者认为机器人得先建立对物理世界的理解，才能产生可靠的行为；还有不少人认为，VLA直接从视觉和语言生成动作，是更高效、更现实的路径。

而郭彦东的切入点则更接近生命演化的逻辑：行动能力从来不是孤立长出来的。生命先要感知环境、理解环境，然后才谈得上行动。

简单来说，世界模型负责理解世界，VLA负责作用于世界——两者不是对立，而是天然就该是一个整体。

他还点破了一层：当下被热议的世界模型，本质上不是物理规律驱动的，而是海量数据喂出来的。

“数据足够多，模型就知道水杯越过桌面会下落、手机屏幕用力敲可能会碎——这不是物理规律的总结，而是大数据学习的结果。”

顺着这个判断，他重新定义了VLA：VLA是多种模态融合、大数据驱动的端到端模型架构的总称。在这个定义下，世界模型和VLA没有本质区别，更不是谁替代谁。世界模型解决的是对物理环境进行稠密、包含时间维度的4D预测，它是一个非常好的空间基础模型，是VLA空间感知的一部分，能帮机器人大脑越来越好。

郭彦东还用具体任务把“为什么必须融合”讲透了：

“如果不把世界模型合并在VLA里面，很多任务完全做不了。比如泡茶要先拿茶包再倒水，做咖啡要先拿杯子再接水——这些推理认知逻辑靠语言模型更容易完成。世界模型擅长的是短程预测，比如水杯靠近桌边可能掉落。只有把两者合并，机器人才既能做短程物理预测，又能做长程任务规划。”

除了把世界模型的预测能力融进VLA，智平方还用它来“补数据”——生成真实环境里难采到的样本（corner case）。“比如采集杯子数据时，采到的可能都是桌子中间的，忘了采桌子边缘的。这时就可以用世界模型生成桌子边缘的样本，补足VLA。”

也正因为这个判断，智平方很早就开始推世界模型与VLA的融合。

真正重要的，是谁能率先做到VLA与WM的深度融合

收了路线之争之后，郭彦东顺势抛出了下一个关键词——类脑架构。这个词本身不新鲜，但放在这个节点上，分量很足。

他的判断是：当世界模型被收进VLA之后，沿着类脑这条路往下走，会是机器人大脑接下来最值得押的方向。

这话不是空谈。智平方过去三年的技术节奏，恰好踩在这条线上——先是端到端VLA，再把世界模型融进来，到如今的类脑大模型NeuroVLA，一条大脑的进化轨迹已经看得很清楚。

转折点出现在2025年11月。智平方和北京大学一起放出新架构Video2Act，把「先预测、再动手」头一回做成了一种可用的机器人模型范式。

智平方对世界模型的看法很坚定：它的终极用处，不应该只生成视频，而是生成行动。

道理也朴素——机器人光知道接下来会发生什么还不够，关键是看懂之后，知道自己该出哪一手。

所以Video2Act压根不是一个视频生成模型，而是把4D世界模型缝进了VLA。它一边对空间做稠密建模，一边持续吃进动作的时序信息，于是机器人能在事情发生前就预判状态怎么变，再把这份预判直接落成动作。

至此，世界模型不再只是旁边的「预言家」，第一次真正长进了机器人的行动回路里。

效果上，据披露，Video2Act在第三方评测中，把硅谷的同类标杆甩开了30%以上。

更有说服力的是来自外部的背书：2026年，英国皇家两院院士、图灵人工智能世界领先研究员Philip Torr，连同强化学习的奠基人物之一Pieter Abbeel等一众顶尖学者，合写了一篇世界模型的权威综述《World Model for Robot Learning: A Comprehensive Survey》，其中专门把Video2Act拎出来，当作「世界模型+VLA融合」这条路线的代表性工作。

所有这些信号都指向同一件事：「到底选世界模型还是VLA」这道纠结了很久的选择题，正在失效。

剩下真正值得关注的问题只有一个——谁能抢先把这两样东西，揉成一个真正咬合的整体。

都在把本体做得像人，却没人想怎么让脑子更像人

世界模型与VLA融合后，机器人「看懂世界」这关算是过了。

可看懂不等于做得好——怎么让它的动作像人一样又稳又不费劲，是紧接着冒出来的难题。

智平方最近啃的，正是这块硬骨头。

智源大会上，郭彦东把重头戏留给了刚发布的类脑具身智能系统NeuroVLA。按他的说法，眼下能同时把主动感知、故障自恢复、时序记忆这三种生物级运动能力凑齐的，只有它一个。