首页 > 教程攻略 > ai资讯 >2026年过半，具身智能CEO们在聊什么？

2026年过半，具身智能CEO们在聊什么？

来源：互联网时间：2026-06-17 12:56:20

6月13日，2026北京智源大会具身产业CEO论坛的现场，座无虚席，连过道都站满了听众，气氛比预想的还要热烈。

整整5场主题演讲加一场圆桌论坛，把当前具身赛道上最炙手可热的明星公司CEO们聚到了一起。这不仅是早期玩家的“狭路相逢”，也是一次生态关联方的“互联互通”。

智平方的郭彦东、星动纪元的陈建宇、光轮智能的谢晨、蚂蚁灵波的朱兴、破壳机器人的许华哲、千寻智能的韩峰涛、灵心巧手的周永、星源智的刘东——过去两年里，他们各自的公司拿到了传统行业望尘莫及的资本估值和发展速度，也同样亲历了技术迭代的曲折、产能爬坡的艰难，以及商业化未来的一次次推演。

这个年轻赛道的“华山论剑”，CEO们的表达显然还没学会“收敛”。他们对行业现状的复盘、技术路线的甄别，以及对未来趋势的预判，集中反映了当下国内具身智能产业的主流认知与前沿思考。对创业公司来说，CEO思考的深度和角度，往往直接决定着公司的未来。

以下是本次论坛各位CEO的观点实录，我们希望这能成为行业早期的一份珍贵资料。

智平方郭彦东：世界模型不是VLA的竞争路线，而是VLA体系中的核心组成部分

通用智能机器人绝不仅仅是一种特定的装置或设备。基于跨场景使用的能力，它将成为继PC、手机、智能汽车之后又一个了不起的智能终端。

机器人能从事的工作越来越多了。它不再是为单一任务而存在，交互更便捷，还能跨场景、跨任务去使用——这会是一个革命性的智能终端。

机器人要工作，离不开几个核心要素：第一是强大的大脑，得跟人一样聪明，能感知环境、听懂指令、执行操作；第二是灵巧的操作，需要双臂协同，像人一样在各种环境里操作不同设备；第三是自主移动能力，移动方式可以多样，但这个能力必须到位。

那怎么构建一个强大的机器人大脑？从第一性原理来看，它要完成的事情有两件：输入方面，能对环境信息做全方位、全维度的感知，并且理解人的指令。

这就引出了现在被广泛讨论的问题：到底该用世界模型，还是VLA模型？VLA会被世界模型取代吗？它们到底是什么关系？事实是，眼下被热炒的“世界模型”，本质上并不是物理规律驱动的，而是靠海量数据训练出来的。数据够多，模型就知道水杯越过桌面会下落，手机屏幕用力敲可能会碎——这不是物理规律的总结，而是大数据学习的结果。

基于这个理解，我们认为VLA是多种模态融合的大数据驱动的端到端模型架构的总称。在这个定义下，世界模型与VLA没有本质区别，更不是替代关系。世界模型解决的是对物理环境进行稠密、包含时间维度的4D预测，它是一个很好的空间基础模型，是VLA空间感知的一部分，能帮助机器人的大脑越来越强大。

所以结论很清楚：世界模型不是VLA的竞争路线，而是VLA体系中的核心组成部分。在世界模型与VLA融合之后，类脑架构将成为下一代机器人大脑的重要演进方向。

星动纪元陈建宇：具身机器人应该具备像人类一样的“智能性和通用性”

具身机器人未来具备万亿级的潜在市场，这已经成了行业共识。

它的价值主要体现在两个方面：第一是极大提高生产力，帮助我们更好地去生产现有的终端产品；第二，机器人本身也可能成为智能终端——继个人电脑、智能手机、智能汽车之后，可能会以某种家用机器人的形态出现。但要实现这一点，再延续传统机器人的范式就行不通了。

传统机器人已经有超过70年的历史，但存在两个致命问题：一是上限非常低，智能性不够，只能做相对重复简单的动作，稍微复杂一些的事就干不了；二是通用性严重不足，硬件和软件都是专用的，要做一件新事情，必须重新打造硬件和整套软件系统。

那我们想要什么？我们想要打造像人一样，上限高又通用的机器人。这就需要同步打造大脑和本体。当前，具身智能公司如果只做单点技术是不够的，要比拼的是整套系统能力——从大脑到本体到场景，协同进化的飞轮。

光轮智能谢晨：数据不是燃料，是物理AI的教育系统

过去几年，人工智能的发展主要发生在数字世界。大语言模型依靠海量文本、图像和视频数据完成训练，并通过题库、用户反馈和在线交互不断迭代。可当AI走向物理世界，问题就完全不同了。机器人不仅要理解语言和图像，更要在真实环境中行动——处理材料、接触、摩擦、形变、空间约束和任务结果。这意味着，物理AI需要的不只是更多数据，而是一套能让机器人持续学习、持续评测、持续改进的基础设施。

AI行业的“卡脖子”问题，底层逻辑正在转换。整个具身、物理AI，最终的关键还是在数据上。数据是具身智能“卡脖子”的难题。物理AI的数据需求，很可能是自动驾驶的1000倍。

在我们看来，机器人学习不能停留在一次性数据集上。人类的学习不是一次完成的，而是在经验、反馈和实践中持续发生。机器人也是一样——它需要从真实世界获得经验，通过评测理解自己的能力边界，在真实部署中发现新问题，并把反馈带回下一轮训练。这个过程，本质上就是一个持续学习的过程。

行业里之前习惯把数据称为AI的燃料。但我们始终认为，数据本质上应该是一套持续的教育系统。物理AI所需要的，不只是达标的数据供给，而是全生命周期里持续提供高质量数据、有效反馈和认知增量的学习系统。任务越复杂，越需要更有经验的数据来定义问题、暴露短板，帮助模型持续提升。

因此，我们提出了“物理AI教育系统”的概念。它至少包含三个关键要素。

第一是数据，也就是机器人学习的“经验”。这既包括人类在真实世界中的操作经验，也包括在仿真环境中生成的合成数据。人类数据的价值，不只是告诉机器人“物体在哪里”，而是让模型理解人如何操作物体、如何处理复杂的物理交互、如何面对失败与纠正、如何完成长程任务。仿真数据则可以把这些真实经验放到可控、可复现、可泛化的环境中，生成更大规模、更丰富分布的数据。

第二是评测，也就是机器人学习的“反馈”。今天具身智能发展中一个非常关键的瓶颈，就是缺乏高质量、可规模化、可复现的评测体系。大语言模型可以通过题库和用户反馈持续改进，自动驾驶可以依靠量产车队和Shadow Mode获得大量反馈，但机器人目前还没有天然的大规模反馈网络。真实世界的评测成本高、周期长、安全风险大，也很难覆盖足够多的任务和失败模式。因此，仿真评测会成为物理AI规模化发展的关键路径之一。

第三是部署，也就是机器人进入真实世界后的持续学习。机器人不是在实验室训练完就结束学习，恰恰相反，真实部署会带来更多复杂问题：不同场景的差异、不同设备的约束、不同任务流程中的异常情况，都会成为下一轮数据生成、模型训练和评测优化的重要来源。只有把部署反馈重新带回数据和评测系统，机器人能力才能形成持续迭代。

今天，物理AI仍处在非常早期的阶段。行业还需要更统一的数据标准、更开放的硬件接口、更可复现的评测体系，也需要更多模型团队、机器人公司、硬件厂商和场景方共同参与。

蚂蚁灵波朱兴：泛化不足本质是数据问题

具身智能有广阔的未来空间，但聚焦今年来看，应该还是在相对单一、简单的场景里进行小规模商业化试点。

当下，物理AI面临多重挑战。主要表现在三个方面：首先是传感器出发的感知困境——如何让机器人看得更清楚、摸得更明白，这是感知要解决的核心问题；其次是高动态交互，这是具身智能与物理世界交互的最大挑战；最后是泛化性不足，泛化性的挑战本质上是数据的挑战。

对于数据问题，不能只谈数据规模，质量和分布同样重要。去年，蚂蚁灵波在市场上大规模了解真机数据时，发现模态质量、重复度等一些基本情况还是比较糟糕的。同时，随着模型范式的不断演进，不同阶段需要不同的数据配方。

但看下一阶段，我们坚信以人为中心的数据将成为数据的核心。因为基于这类数据，可能会催生新一代的物理原生基础模型。

破壳机器人许华哲：家庭场景最有可能迭代出通用具身智能

尽管家庭场景中机器人面临很多挑战，但家庭场景具有丰富的数据维度，这让它有机会迭代出真正的通用具身智能。真正的通用泛化是被数据定义的，而这个数据一定存在于泛服务场景。家庭的数据具有非结构化、多任务切换、高动态、多样本物体等特点，数据多样性几何级暴增。在这样的场景下，通用具身智能才有可能出现。

破壳机器人希望系统重构全球家庭生态，定义未来人类的全新生活方式。主要通过三个方面实现：

第一是机器人本体——打破传统以本体出发的模式，我们坚持从AI角度重新定义本体，从数据出发，看本体能否把数据用好，能否把菜做出来。

第二是AI模型——目标直指通用物理世界模型的终局形态，依托这个模型，机器人可以在各类通用场景中实现能力泛化。

第三是物理世界智能体——这也是当前具身智能领域布局较少、却至关重要的方向。就像日常见到的那些“智能体”一样，我们希望它能在真实物理环境中串联各类任务，主动发现并提出问题，自主完成能力迭代升级。

灵心巧手周永：实现机器人造机器人，产业才算进入1.0阶段

技术成熟本身是一个相对概念。举个例子，智能手机时代，富士康单日量产40万台手机，这就是产业走向成熟的典型表现。放到当下的机器人领域，我把行业成熟度划分为三个发展阶段：

第一阶段，目标是机器人制造机器人。目前机器人本体仍以人工组装为主，产品一致性难以保障。一旦实现机器人自主生产本体，就能大幅压缩制造成本。我们计划在未来1到2年内落地“机器人造机器人、智能体进化智能体”的目标。达成这一阶段，我认为机器人本体的成熟度可以打到60分，算作行业1.0版本。

第二阶段是AI自主设计加机器人自主生产。由智能体承接用户需求，全程靠AI完成机器人设计，再由机器人落地制造，整个流程无需人工介入。实现这个目标，本体成熟度就能达到80分。

第三阶段则是趋近完全成熟的形态，成熟度可达到95分以上。届时机器人将实现高度模块化：一个机器人交付到客户手里，如果客户在实际应用中提出优化需求，机器人可以自主完成配件更换、外观调整——比如自行更换外壳、电机等部件，两小时内就能完成迭代并恢复使用，具备极强的自主适配和快速响应能力。

千寻智能韩峰涛：现阶段具身智能模型不宜大规模进场景干活

现阶段不宜急于大规模切入落地场景。可以开展小范围场景探索，与客户协同打磨场景认知，以此反向优化硬件与数据链路，但规模化落地需要暂缓。

目前机器人难以规模化推广，核心卡在部署成本过高：现有模型完成演示版本，仅后训练和微调就需要一两个月，完全无法支撑批量落地。

当前具身智能模型尚处于起步阶段，能力像是一两岁的孩子。与其仓促推向场景，不如优先深耕基座预训练、打磨基础能力。就像培养孩子的时候，我们会先让孩子系统学习成长，而不是让他早早外出务工。我们判断，至少两年后，行业才具备大规模落地的条件。

星源智刘东：基座研发与场景落地需要并行推进

我们认为，在训练基座模型的同时，必须同步挖掘可落地的场景点位。

实验室环境会屏蔽大量真实工况。有时候模型在实验室表现很好，落地到实际场景时却很容易出现各类问题。从实验室验证到真实场景跑通，本身就需要一到两年的周期。提前下场实战验证，既能修正模型训练方向、避免技术走偏，也能积累实战经验。

参考自动驾驶行业的经验：早年行业都冲刺高阶自动驾驶L4和L5，反而是聚焦L2方案的玩家落地更快、市场收益更高。因此，基座研发与场景落地需要并行推进，不能脱离实际场景闭门造车。