首页 > 教程攻略 > ai资讯 >2026年过半,具身智能CEO们在聊什么?

2026年过半,具身智能CEO们在聊什么?

来源:互联网 时间:2026-06-17 12:56:20

6月13日,2026北京智源大会具身产业CEO论坛的现场,座无虚席,连过道都站满了听众,气氛比预想的还要热烈。

整整5场主题演讲加一场圆桌论坛,把当前具身赛道上最炙手可热的明星公司CEO们聚到了一起。这不仅是早期玩家的“狭路相逢”,也是一次生态关联方的“互联互通”。

智平方的郭彦东、星动纪元的陈建宇、光轮智能的谢晨、蚂蚁灵波的朱兴、破壳机器人的许华哲、千寻智能的韩峰涛、灵心巧手的周永、星源智的刘东——过去两年里,他们各自的公司拿到了传统行业望尘莫及的资本估值和发展速度,也同样亲历了技术迭代的曲折、产能爬坡的艰难,以及商业化未来的一次次推演。

这个年轻赛道的“华山论剑”,CEO们的表达显然还没学会“收敛”。他们对行业现状的复盘、技术路线的甄别,以及对未来趋势的预判,集中反映了当下国内具身智能产业的主流认知与前沿思考。对创业公司来说,CEO思考的深度和角度,往往直接决定着公司的未来。

以下是本次论坛各位CEO的观点实录,我们希望这能成为行业早期的一份珍贵资料。

智平方郭彦东:世界模型不是VLA的竞争路线,而是VLA体系中的核心组成部分

通用智能机器人绝不仅仅是一种特定的装置或设备。基于跨场景使用的能力,它将成为继PC、手机、智能汽车之后又一个了不起的智能终端。

机器人能从事的工作越来越多了。它不再是为单一任务而存在,交互更便捷,还能跨场景、跨任务去使用——这会是一个革命性的智能终端。

机器人要工作,离不开几个核心要素:第一是强大的大脑,得跟人一样聪明,能感知环境、听懂指令、执行操作;第二是灵巧的操作,需要双臂协同,像人一样在各种环境里操作不同设备;第三是自主移动能力,移动方式可以多样,但这个能力必须到位。

那怎么构建一个强大的机器人大脑?从第一性原理来看,它要完成的事情有两件:输入方面,能对环境信息做全方位、全维度的感知,并且理解人的指令。

这就引出了现在被广泛讨论的问题:到底该用世界模型,还是VLA模型?VLA会被世界模型取代吗?它们到底是什么关系?事实是,眼下被热炒的“世界模型”,本质上并不是物理规律驱动的,而是靠海量数据训练出来的。数据够多,模型就知道水杯越过桌面会下落,手机屏幕用力敲可能会碎——这不是物理规律的总结,而是大数据学习的结果。

基于这个理解,我们认为VLA是多种模态融合的大数据驱动的端到端模型架构的总称。在这个定义下,世界模型与VLA没有本质区别,更不是替代关系。世界模型解决的是对物理环境进行稠密、包含时间维度的4D预测,它是一个很好的空间基础模型,是VLA空间感知的一部分,能帮助机器人的大脑越来越强大。

所以结论很清楚:世界模型不是VLA的竞争路线,而是VLA体系中的核心组成部分。在世界模型与VLA融合之后,类脑架构将成为下一代机器人大脑的重要演进方向。

星动纪元陈建宇:具身机器人应该具备像人类一样的“智能性和通用性”

具身机器人未来具备万亿级的潜在市场,这已经成了行业共识。

它的价值主要体现在两个方面:第一是极大提高生产力,帮助我们更好地去生产现有的终端产品;第二,机器人本身也可能成为智能终端——继个人电脑、智能手机、智能汽车之后,可能会以某种家用机器人的形态出现。但要实现这一点,再延续传统机器人的范式就行不通了。

传统机器人已经有超过70年的历史,但存在两个致命问题:一是上限非常低,智能性不够,只能做相对重复简单的动作,稍微复杂一些的事就干不了;二是通用性严重不足,硬件和软件都是专用的,要做一件新事情,必须重新打造硬件和整套软件系统。

那我们想要什么?我们想要打造像人一样,上限高又通用的机器人。这就需要同步打造大脑和本体。当前,具身智能公司如果只做单点技术是不够的,要比拼的是整套系统能力——从大脑到本体到场景,协同进化的飞轮。

光轮智能谢晨:数据不是燃料,是物理AI的教育系统

过去几年,人工智能的发展主要发生在数字世界。大语言模型依靠海量文本、图像和视频数据完成训练,并通过题库、用户反馈和在线交互不断迭代。可当AI走向物理世界,问题就完全不同了。机器人不仅要理解语言和图像,更要在真实环境中行动——处理材料、接触、摩擦、形变、空间约束和任务结果。这意味着,物理AI需要的不只是更多数据,而是一套能让机器人持续学习、持续评测、持续改进的基础设施。

AI行业的“卡脖子”问题,底层逻辑正在转换。整个具身、物理AI,最终的关键还是在数据上。数据是具身智能“卡脖子”的难题。物理AI的数据需求,很可能是自动驾驶的1000倍。

在我们看来,机器人学习不能停留在一次性数据集上。人类的学习不是一次完成的,而是在经验、反馈和实践中持续发生。机器人也是一样——它需要从真实世界获得经验,通过评测理解自己的能力边界,在真实部署中发现新问题,并把反馈带回下一轮训练。这个过程,本质上就是一个持续学习的过程。

行业里之前习惯把数据称为AI的燃料。但我们始终认为,数据本质上应该是一套持续的教育系统。物理AI所需要的,不只是达标的数据供给,而是全生命周期里持续提供高质量数据、有效反馈和认知增量的学习系统。任务越复杂,越需要更有经验的数据来定义问题、暴露短板,帮助模型持续提升。

因此,我们提出了“物理AI教育系统”的概念。它至少包含三个关键要素。

第一是数据,也就是机器人学习的“经验”。这既包括人类在真实世界中的操作经验,也包括在仿真环境中生成的合成数据。人类数据的价值,不只是告诉机器人“物体在哪里”,而是让模型理解人如何操作物体、如何处理复杂的物理交互、如何面对失败与纠正、如何完成长程任务。仿真数据则可以把这些真实经验放到可控、可复现、可泛化的环境中,生成更大规模、更丰富分布的数据。

第二是评测,也就是机器人学习的“反馈”。今天具身智能发展中一个非常关键的瓶颈,就是缺乏高质量、可规模化、可复现的评测体系。大语言模型可以通过题库和用户反馈持续改进,自动驾驶可以依靠量产车队和Shadow Mode获得大量反馈,但机器人目前还没有天然的大规模反馈网络。真实世界的评测成本高、周期长、安全风险大,也很难覆盖足够多的任务和失败模式。因此,仿真评测会成为物理AI规模化发展的关键路径之一。

第三是部署,也就是机器人进入真实世界后的持续学习。机器人不是在实验室训练完就结束学习,恰恰相反,真实部署会带来更多复杂问题:不同场景的差异、不同设备的约束、不同任务流程中的异常情况,都会成为下一轮数据生成、模型训练和评测优化的重要来源。只有把部署反馈重新带回数据和评测系统,机器人能力才能形成持续迭代。

今天,物理AI仍处在非常早期的阶段。行业还需要更统一的数据标准、更开放的硬件接口、更可复现的评测体系,也需要更多模型团队、机器人公司、硬件厂商和场景方共同参与。

蚂蚁灵波朱兴:泛化不足本质是数据问题

具身智能有广阔的未来空间,但聚焦今年来看,应该还是在相对单一、简单的场景里进行小规模商业化试点。

当下,物理AI面临多重挑战。主要表现在三个方面:首先是传感器出发的感知困境——如何让机器人看得更清楚、摸得更明白,这是感知要解决的核心问题;其次是高动态交互,这是具身智能与物理世界交互的最大挑战;最后是泛化性不足,泛化性的挑战本质上是数据的挑战。

对于数据问题,不能只谈数据规模,质量和分布同样重要。去年,蚂蚁灵波在市场上大规模了解真机数据时,发现模态质量、重复度等一些基本情况还是比较糟糕的。同时,随着模型范式的不断演进,不同阶段需要不同的数据配方。

但看下一阶段,我们坚信以人为中心的数据将成为数据的核心。因为基于这类数据,可能会催生新一代的物理原生基础模型。

破壳机器人许华哲:家庭场景最有可能迭代出通用具身智能

尽管家庭场景中机器人面临很多挑战,但家庭场景具有丰富的数据维度,这让它有机会迭代出真正的通用具身智能。真正的通用泛化是被数据定义的,而这个数据一定存在于泛服务场景。家庭的数据具有非结构化、多任务切换、高动态、多样本物体等特点,数据多样性几何级暴增。在这样的场景下,通用具身智能才有可能出现。

破壳机器人希望系统重构全球家庭生态,定义未来人类的全新生活方式。主要通过三个方面实现:

第一是机器人本体——打破传统以本体出发的模式,我们坚持从AI角度重新定义本体,从数据出发,看本体能否把数据用好,能否把菜做出来。

第二是AI模型——目标直指通用物理世界模型的终局形态,依托这个模型,机器人可以在各类通用场景中实现能力泛化。

第三是物理世界智能体——这也是当前具身智能领域布局较少、却至关重要的方向。就像日常见到的那些“智能体”一样,我们希望它能在真实物理环境中串联各类任务,主动发现并提出问题,自主完成能力迭代升级。

灵心巧手周永:实现机器人造机器人,产业才算进入1.0阶段

技术成熟本身是一个相对概念。举个例子,智能手机时代,富士康单日量产40万台手机,这就是产业走向成熟的典型表现。放到当下的机器人领域,我把行业成熟度划分为三个发展阶段:

第一阶段,目标是机器人制造机器人。目前机器人本体仍以人工组装为主,产品一致性难以保障。一旦实现机器人自主生产本体,就能大幅压缩制造成本。我们计划在未来1到2年内落地“机器人造机器人、智能体进化智能体”的目标。达成这一阶段,我认为机器人本体的成熟度可以打到60分,算作行业1.0版本。

第二阶段是AI自主设计加机器人自主生产。由智能体承接用户需求,全程靠AI完成机器人设计,再由机器人落地制造,整个流程无需人工介入。实现这个目标,本体成熟度就能达到80分。

第三阶段则是趋近完全成熟的形态,成熟度可达到95分以上。届时机器人将实现高度模块化:一个机器人交付到客户手里,如果客户在实际应用中提出优化需求,机器人可以自主完成配件更换、外观调整——比如自行更换外壳、电机等部件,两小时内就能完成迭代并恢复使用,具备极强的自主适配和快速响应能力。

千寻智能韩峰涛:现阶段具身智能模型不宜大规模进场景干活

现阶段不宜急于大规模切入落地场景。可以开展小范围场景探索,与客户协同打磨场景认知,以此反向优化硬件与数据链路,但规模化落地需要暂缓。

目前机器人难以规模化推广,核心卡在部署成本过高:现有模型完成演示版本,仅后训练和微调就需要一两个月,完全无法支撑批量落地。

当前具身智能模型尚处于起步阶段,能力像是一两岁的孩子。与其仓促推向场景,不如优先深耕基座预训练、打磨基础能力。就像培养孩子的时候,我们会先让孩子系统学习成长,而不是让他早早外出务工。我们判断,至少两年后,行业才具备大规模落地的条件。

星源智刘东:基座研发与场景落地需要并行推进

我们认为,在训练基座模型的同时,必须同步挖掘可落地的场景点位。

实验室环境会屏蔽大量真实工况。有时候模型在实验室表现很好,落地到实际场景时却很容易出现各类问题。从实验室验证到真实场景跑通,本身就需要一到两年的周期。提前下场实战验证,既能修正模型训练方向、避免技术走偏,也能积累实战经验。

参考自动驾驶行业的经验:早年行业都冲刺高阶自动驾驶L4和L5,反而是聚焦L2方案的玩家落地更快、市场收益更高。因此,基座研发与场景落地需要并行推进,不能脱离实际场景闭门造车。