智源大会上,我看到了VLA与世界模型之争已经落幕!类脑架
6月12日,智源大会在中关村国际创新中心拉开帷幕。
今年这一届,规模比去年大了不少,海外的声量也明显上来了。看点虽多,但最让人盯紧的,还是「具身产业CEO」和「具身智能与人形机器人」这两个专场。
原因其实很简单:攒了一肚子想问的问题,答案大概率就压在这两场里。比如:“WM在具身领域到底该怎么用?”、“机器大脑的下一代架构应该是怎样的?VLA还是WAM或者其他?”、“物理AI的边界在哪里?数据飞轮怎么转起来?”——还包括全身运控的思路与可进化学习。
从这些问题就能看出来,我们一直想要的回答,不在本体,而在大脑。
过去几个月,关于VLA和世界模型路线之争的文章,在圈里已经不算少。一些人把这两个路线看作“二元对立”,另一些人则认为两者不存在架构上的对立,完全可以“相互融合”。
这个事情困扰了不少人。
而这次大会上,谁也没想到,为大家递上那个一直想要的答案的,是智平方创始人兼CEO郭彦东。
上台没几分钟,就把这场吵了一年的世界模型与VLA之争给收了,顺手还把下一代机器人大脑的解法摆上了台面。

上来就终结了世界模型与VLA之争
过去一年,机器人产业快速升温,一个问题反复被拿出来讨论:机器人到底该走VLA,还是走世界模型?
不可否认,世界模型,是当下全球具身圈最热的话题之一。
但这次,郭彦东一上台就当了回「终结者」,给这场争论甩出一个明确判断:世界模型不是VLA的竞争路线,而是VLA体系里的核心组成部分。
不少学者认为机器人得先建立对物理世界的理解,才能产生可靠的行为;还有不少人认为,VLA直接从视觉和语言生成动作,是更高效、更现实的路径。
而郭彦东的切入点则更接近生命演化的逻辑:行动能力从来不是孤立长出来的。生命先要感知环境、理解环境,然后才谈得上行动。

简单来说,世界模型负责理解世界,VLA负责作用于世界——两者不是对立,而是天然就该是一个整体。
他还点破了一层:当下被热议的世界模型,本质上不是物理规律驱动的,而是海量数据喂出来的。
“数据足够多,模型就知道水杯越过桌面会下落、手机屏幕用力敲可能会碎——这不是物理规律的总结,而是大数据学习的结果。”
顺着这个判断,他重新定义了VLA:VLA是多种模态融合、大数据驱动的端到端模型架构的总称。在这个定义下,世界模型和VLA没有本质区别,更不是谁替代谁。世界模型解决的是对物理环境进行稠密、包含时间维度的4D预测,它是一个非常好的空间基础模型,是VLA空间感知的一部分,能帮机器人大脑越来越好。
郭彦东还用具体任务把“为什么必须融合”讲透了:
“如果不把世界模型合并在VLA里面,很多任务完全做不了。比如泡茶要先拿茶包再倒水,做咖啡要先拿杯子再接水——这些推理认知逻辑靠语言模型更容易完成。世界模型擅长的是短程预测,比如水杯靠近桌边可能掉落。只有把两者合并,机器人才既能做短程物理预测,又能做长程任务规划。”
除了把世界模型的预测能力融进VLA,智平方还用它来“补数据”——生成真实环境里难采到的样本(corner case)。“比如采集杯子数据时,采到的可能都是桌子中间的,忘了采桌子边缘的。这时就可以用世界模型生成桌子边缘的样本,补足VLA。”
也正因为这个判断,智平方很早就开始推世界模型与VLA的融合。
真正重要的,是谁能率先做到VLA与WM的深度融合
收了路线之争之后,郭彦东顺势抛出了下一个关键词——类脑架构。这个词本身不新鲜,但放在这个节点上,分量很足。
他的判断是:当世界模型被收进VLA之后,沿着类脑这条路往下走,会是机器人大脑接下来最值得押的方向。
这话不是空谈。智平方过去三年的技术节奏,恰好踩在这条线上——先是端到端VLA,再把世界模型融进来,到如今的类脑大模型NeuroVLA,一条大脑的进化轨迹已经看得很清楚。
转折点出现在2025年11月。智平方和北京大学一起放出新架构Video2Act,把「先预测、再动手」头一回做成了一种可用的机器人模型范式。

智平方对世界模型的看法很坚定:它的终极用处,不应该只生成视频,而是生成行动。
道理也朴素——机器人光知道接下来会发生什么还不够,关键是看懂之后,知道自己该出哪一手。
所以Video2Act压根不是一个视频生成模型,而是把4D世界模型缝进了VLA。它一边对空间做稠密建模,一边持续吃进动作的时序信息,于是机器人能在事情发生前就预判状态怎么变,再把这份预判直接落成动作。
至此,世界模型不再只是旁边的「预言家」,第一次真正长进了机器人的行动回路里。
效果上,据披露,Video2Act在第三方评测中,把硅谷的同类标杆甩开了30%以上。
更有说服力的是来自外部的背书:2026年,英国皇家两院院士、图灵人工智能世界领先研究员Philip Torr,连同强化学习的奠基人物之一Pieter Abbeel等一众顶尖学者,合写了一篇世界模型的权威综述《World Model for Robot Learning: A Comprehensive Survey》,其中专门把Video2Act拎出来,当作「世界模型+VLA融合」这条路线的代表性工作。
所有这些信号都指向同一件事:「到底选世界模型还是VLA」这道纠结了很久的选择题,正在失效。
剩下真正值得关注的问题只有一个——谁能抢先把这两样东西,揉成一个真正咬合的整体。
都在把本体做得像人,却没人想怎么让脑子更像人
世界模型与VLA融合后,机器人「看懂世界」这关算是过了。
可看懂不等于做得好——怎么让它的动作像人一样又稳又不费劲,是紧接着冒出来的难题。
智平方最近啃的,正是这块硬骨头。
智源大会上,郭彦东把重头戏留给了刚发布的类脑具身智能系统NeuroVLA。按他的说法,眼下能同时把主动感知、故障自恢复、时序记忆这三种生物级运动能力凑齐的,只有它一个。

他那句话也点得很直白:“大家做人形机器人,天天想着怎么长得像人,但没有人想怎么让脑子更像人”。
戳的就是当下的通病。

现在的VLA架构里,机器人理解能力已经不弱,但一进真实世界的复杂环境,普遍还是响应慢、动作抖、能耗高。
原因在于,大多数机器人还是靠一个统一的大模型,同时扛感知、推理和控制。
可人类不是这样的。
我们脑袋里是分了工的:皮层管想事情,小脑管把动作协调顺,脊髓管那些来不及过脑子的本能反射,不同系统在不同的时间尺度上协同。
照着这个机制,智平方搭出了号称全球首个的「皮层—小脑—脊髓」三级类脑架构NeuroVLA。
其中,皮层管语义理解和任务规划;小脑管高频运动协调与动态修正;脊髓管毫秒级运动执行和安全反射。
这么一拆,机器人头一回有了生物那种分层级的智能,稳不稳、快不快、省不省电,都从架构这一层被重新撑了起来。
智平方给的实测数字也挺直观:抖动压下去75%以上,撞上东西后20毫秒内就能反射性地缩手,功耗还跟着降了一截。

对一台机器人来说,这串数字背后,是一次实打实的质变。
以前的机器人,脑子转得动,身体却跟不上;往后的机器人,不光能琢磨,还能像人那样当场反应、随手纠错、越用越顺。
说到底,机器人正从「会推理」,往「会本能反应」那一步挪。
看到了机器人只会推理,走向人类真实能力的可能
从某种意义上说,NeuroVLA要解的已经不是一个简单的模型问题,而是机器人大脑的架构问题。
它想回答的是:机器人怎么才能拥有真正接近生物系统的智能。而这,正是类脑智能的价值所在。
从端到端VLA,到Video2Act,再到NeuroVLA——过去三年,智平方一直围着机器人大脑做系统性创新。

如果说VLA给了机器人行动能力,世界模型给了机器人理解和预测能力,那NeuroVLA进一步给的,是接近生物系统的反应与控制能力。
这三次演进,其实指向同一个方向:
怎么让机器人有一个更像人脑的「大脑」,让它越来越接近真正的人类智能。