首页

手游

资讯

专题

首页 > 教程攻略 > ai教程 >死磕机器人大脑的北大副教授，和我们聊了聊具身领域最大的“偏见”

死磕机器人大脑的北大副教授，和我们聊了聊具身领域最大的“偏见”

来源：互联网时间：2026-06-22 10:08:10

2026年，具身智能领域的分化趋势已然清晰。北京大学计算机学院副教授、“智在无界”创始人卢宗青给出了一个直截了当的判断：

“软硬分化。”

软，是模型大脑；硬，是机器人本体。分化，意味着不同公司各有所长，各司其职。

“智在无界”所在的北京鼎好大厦，聚集了智源研究院、零一万物、银河通用等一众明星AI机构。在这里，关于人工智能的非共识每天都在发生。而卢宗青的观点，恰恰与当下具身行业的主流发展路径背道而驰。放眼望去，那些获得高估值的具身创业公司——无论是已跻身“独角兽”行列的智元机器人、银河通用，还是融资势头迅猛的星动纪元、星海图——都在执着地追求同一个目标：软硬一体，做全栈。

但卢宗青和他于2025年创立的“智在无界”，偏偏选择“逆势”而为，只做一家模型公司，专注研发机器人大脑，不涉足硬件制造。

智能涌现独家获悉，智在无界已于近日完成天使轮融资，金额数千万元，由拉卡拉旗下考拉基金领投，领航新界、灵心巧手跟投，老股东联想之星和星连资本持续加注。

“具身行业对‘纯软’这件事，存在比较大的偏见，国内如此，国外也一样。”卢宗青直言不讳。他举了个例子：软硬都做的美国具身智能创业公司Figure，估值比只做具身模型的Physical Intelligence高出数倍。

不过，2026年开年，美国机器人圈的一笔大交易，或许正在为“一级市场重新定价具身模型公司”这件事开个好头：1月14日，机器人模型初创企业Skild AI完成14亿美元C轮融资，估值翻了三倍，达到超140亿美元，成为2026年机器人行业最早诞生的千亿独角兽。

这笔交易把问题摆上了台面：如果模型公司能做出通用于不同本体、不同任务的“大脑”，那么具身智能企业是否还有必要将整条技术栈都背在自己身上？

这正是智在无界想要证明的——做跨品牌、跨形态的具身智能模型。

目前，公司已推出灵巧手操作模型Being-H系列，能够控制双足机器人移动和操作的Being-M模型也正在研发中。最新发布的Being-H0.5模型，已能够控制30种不同构型的机器人；其端侧部署能力经过推理优化后，在英伟达Orin-NX等常用的小型机器人芯片上也能实时跑起来。

目前，公司的客户已包括PND、灵心巧手等硬件公司。PND近日与智在无界联合发布的Adam-U Ultra机器人，正是“软硬协作”的典型故事——接入Being-H后，PND的高自由度机器人可以“开箱即用”地完成整理桌面、分拣扫码等通用技能；再配合智在无界的增值服务Being-Dex，仅需少量数据的后训练，数小时就能学会新任务。

实现上述能力的核心，在于超过3万小时的预训练数据——卢宗青介绍，这已是当前全球规模最大的具身智能模型训练数据集。而背后支撑这一切的，是一套独特的“人类动作视频”方案。

（《智能涌现》注：此处“最大”特指用于具身智能模型预训练的数据集。）

这套方案的操作很简单：在人类的正常工作生活中，通过头戴摄像头录制第一视角的手部动作视频。这样一来，数据规模大、成本低，更能完整记录人类的复杂操作。相比之下，多数全栈公司依赖的“遥操作采集”模式，因需要人工操控特定机器人，成本高、规模小，且数据与硬件深度绑定，局限性显而易见。

△头戴摄像头可以在不干扰操作者正常工作的情况下，录制第一视角的手部动作视频，图片：采访人提供

2023年底，卢宗青就开始采用这一数据思路进行模型训练。他记得，当时这一方案并未在业界引起太大反响，主流方向仍是仿真数据和真机数据。但从2025年起，包括特斯拉Optimus在内，越来越多的机器人公司开始采用人类视频数据方案。他判断，2026年行业内会有更多公司认清“软硬分化”的价值。背后是一笔再清晰不过的经济账：纯自研一个具身模型，算上买卡、招人等成本，年开销高达数千万甚至上亿；而外采一台机器人“大脑”，一次性成本只需几万元。

在他看来，“软硬一体”因为布局全面而更受一级市场青睐，但现实是，技术栈实在太长了——做模型和做硬件本就是两套完全不同的能力体系，一家公司很难把两头都做深、做透。过去一年里，也因此出现了一些“为了全栈而全栈”的公司：套壳VLA、做出看似能干活的Demo，拿到融资后，却无法在真实场景里落地赚钱，或因模型套壳被曝光而遭到技术能力的质疑。这促使更多创业者开始审视全栈路线的真实难度与性价比。

“我不想把资源分散在自己不擅长的硬件上。”卢宗青说，技术还没收敛，探索更要保持轻量，这也是他选择死磕“大脑”的原因。

△ 卢宗青，图片：采访人提供

具身模型与本体，分工将会更明确

智能涌现：国内头部具身企业还是以“软硬一体”为主，智在无界只做模型，会在融资时遇到困难吗？你怎么看这个情况？

卢宗青：智在无界正式开始运营是在2025年5月，当时纯模型的路线想融资确实不容易。美国市场的情况也类似，软硬都做的Figure估值会比只做具身模型的Physical Intelligence高出一大截。

（作者注：2025年9月，Figure估值约为390亿美元；2025年11月，Physical Intelligence估值约为56亿美元。）

原因其实不难理解：具身是一个全新的行业，最初大家也看不清未来产业链的形式会是什么样，所以早期投资人更愿意把钱投给什么都做的企业。

但估值只是暂时的，它从本质上并不代表公司的业务一定能做好。我想做的是像OpenAI那样的企业：一开始更偏向科研，能第一个做出“ChatGPT”，然后在此基础上开展商业化。

智能涌现：怎么才算“公司业务做好”？或者说，一个好的具身大脑模型，核心解决什么问题？

卢宗青：核心是通过预训练模型，为机器人赋予一种基础的“运动与操作基因”。

人类虽然不像马、鹿等动物，一生下来就有很强的运动能力，但我们的基因赋予了我们比较好的运动潜力，通过后天训练可以激发出来。机器人也是同理——预训练模型相当于赋予了机器人“开箱即用”的初步运动能力。

智在无界也会基于具体任务，到不同的机器人本体上做后训练。如果预训练的大模型能力足够强，那么后训练加部署的环节里，大概30分钟就能让机器人学会一个新任务。

智能涌现：但估值高会带来更多资金储备，所以可以做更多技术上的探索。这在技术没收敛的阶段，能否加大“做好模型业务”的概率？

卢宗青：但估值高了也会有恶性循环——企业可能会去尝试各种技术和商业化的路线，钱投进去了，却没做出成果。归根结底，估值和业务成败不是绝对的关系。

智能涌现：所以现在能感受到一级市场的变化吗？原因是什么？

卢宗青：现在可以看到，具身模型公司的估值确实越来越贵了。

原因是，从业务层面来看，现在很多机器人本体公司会主动来找我们合作。大家算过“自研模型到底能不能赚钱”这笔账之后，逐渐意识到一个问题：具身智能本体公司做不做模型，本质上是个商业行为。行业会越来越走向软硬分化的形态。

智能涌现：从算账的角度来看，训一个好的具身模型，一年要花多少钱？几千万到一个亿？

卢宗青：对。一个模型大概需要10个人，年薪就要2000万元。算力也很贵：如果是100台机器，每台8张卡，用A800的卡，每个月需要大概300万元；如果用H200的卡，每个月的成本就要900万元了（含存储）。

这还没算上数据和其他的成本。现在最便宜的第一视角视频数据，大概是几十元一小时；动捕数据大概在几百元一小时。

智能涌现：智在无界现在的付费模式是什么？为什么说比企业自研要便宜？一个硬件厂商，会不会担心软硬分化以后，自己因为没有软的能力，被模型公司“坐地起价”？

卢宗青：目前的收费方式是一台机器人部署，收一次性的License费用，几万到十万元不等。对于出货量不大的公司来说，这远小于自研成本。此外，我们还有根据数据量收费的后训练服务Being-Dex。

当本体企业出货量达到一定程度时，也可以采取类似SaaS年包的付费方式。而且，到那时模型公司也会有多家，大家形成竞争关系，本体厂商就不怕某一家“坐地起价”了。

智能涌现：如果技术收敛了，不再需要花那么多成本搞研发，本体公司会不会自己就把模型的业务做了？这样会对纯模型公司构成威胁吗？

卢宗青：如果真到了技术收敛、一个通用模型能做很多事情的阶段，机器人会进入家庭。那时我反而认为模型公司的市场会更大，甚至可以做到To C。

届时可能会出现像微软那样的大软件公司；也可能出现像华&为那样同时具备软硬件产品能力的企业。到了那个阶段，我们也不排除通过OEM的方式去做真正的机器人产品。

△Being-H模型控制的PND机器人正在给快递扫码，图片：采访人提供

2027年，100万小时数据量或将带来模型能力的质变

智能涌现：你此前一直从事计算机领域的研究，后来是怎么和具身智能产生交集的？

卢宗青：2023年，我通过多模态大语言模型去玩开放世界游戏《荒野大镖客2》，结果发现模型的任务理解和动作完成能力都极其有限。当时我就意识到，模型交互能力弱的根本瓶颈在于缺乏对视觉和空间的理解。而要提升这一点，与真实世界的交互数据必不可少。

这成了我最初投入具身智能模型研究的契机。

智能涌现：你说智在无界正式创立后不久，就利用2025年暑假去好几家工厂调研具身智能的落地情况。你们发现了什么行业问题或现状？

卢宗青：印证了之前的判断——现阶段的具身智能远远没到可以落地真干活的水平，核心卡点在于泛化性。

比如在束线整理、精密组装这类动作非标且复杂的工序上，具身智能“独立自主完成工作”的能力仍然有限。行业对外讲的“工业场景落地”，大部分还停留在演示或短周期的POC（概念验证）阶段。

智能涌现：原因是什么？

卢宗青：原因一部分在硬件——缺乏稳定好用的高自由度灵巧手；灵巧手也缺触觉，这意味着接触点等重要的力反馈信息是缺失的。

另一部分原因在模型——过去业内更多使用二指夹爪，行业还没研发出真正能干活的灵巧手模型。

智能涌现：你早于业界共识，提出采用人的视频做预训练数据。智在无界发布第一个模型时，业内反馈如何？

卢宗青：2025年七八月份，我们做出了第一个灵巧手模型Being-H0，业内反馈还不错。英伟达总部也专门派人过来了解这个模型在算力方面的细节。

当时大家普遍觉得这是个新思路。那时业内主要还在用机器人本体采集的数据。我们确实是第一个采用大规模人类视频数据做模型预训练的——Being-H0用了大约100万条第一人称视角下、人手操作的视频。

智能涌现：你从2023年底就开始用人类视频数据的技术路线训练具身模型，行业去年也在紧锣密鼓地迭代各种技术方案。但为什么至今还没做出一个泛化性好、真能干活的具身模型？

卢宗青：我们在具身模型的训练上花了大约两年时间。过去的问题中，最本质的有两点：一是数据量不够多；二是模型训练还缺乏很好的范式。

智能涌现：要让具身智能具备泛化能力，多大量级的数据才够？

卢宗青：我们目前积累的数据在四五万小时左右，包含第一人称视频和一部分机器人真机数据。

我认为，数据规模可能需要达到100万小时量级，才更有可能让机器人快速学会复杂的新任务，具备真正的泛化能力，从而在产线上实际用起来。这个量级，大概在2027年可以达到。

另外，数据来源不能只局限于单一或少数场景。我们收集数据时，会特别注重多样性——不同场景、不同任务的数据，都在持续积累。

智能涌现：之前做了一两年，才积累了四五万小时的视频，怎么在2027年就把量堆到100万小时？

卢宗青：过去视频量级一直只有四五万小时，原因是当时技术路线还没转到“人的视频”上来，所以很少有人系统地做这件事。

我们早期的数据有一部分来自互联网，比如用GoPro拍摄的第一视角；也有我们自己采集的，包括第一人称视频和用动捕设备捕捉的动作数据。

现在，行业对视频训练数据的需求明显起来了，最近也出现了不少专门生产视频数据的创业公司。我们这边还有合作工厂提供数据——比如工人头戴摄像头工作时拍摄的手部数据。

智能涌现：你说从方法论来看，训练的大框架其实都差不多，真正的差异在细节和工程上。智在无界具体是怎么做的？

卢宗青：智在无界采用的是“预训练-后训练”双层框架。在预训练阶段，通过大量人类视频让模型模仿人类，理解视觉和文本信息，输出人类动作。

在后训练阶段，将预训练中基于二维画面学到的信息，与物理空间对齐，转化为可以在物理世界中驱动机器人的控制信号，并适配不同的机器人本体。

在这些环节中，我们做了一些细节上的工程工作。比如，在数据处理上，我们建立了一套自动化的数据处理工作流，整个过程基本不需要人工干预。系统会自动爬取网络上的视频，调用模型标注视频中动作的文字描述，再将视频中有用的片段截取出来。此外，我们还通过给视频中的关节进行标注，让不同来源、不同角度、不同清晰度的视频里的二维动作画面，都能统一到同一个3D空间里，最终整理成可直接用于训练的“视频-文字描述-动作”数据对。

在后训练阶段，我们会更积极地探索多模态的融合，比如加入触觉带来的力反馈，补充模型学习所需的重要信息。

智能涌现：除了灵巧手大模型，听说智在无界即将发布一个适用于双足人形全身的大模型。可以先大概介绍一下吗？

卢宗青：这是我们正在研发的多模态移动操作模型——Being-M系列。它的数据会更复杂一些：同一个动作，既包含第一人称和第三人称视频，也包括动捕数据，这些数据是相互对齐的。

在预训练阶段，我们先通过模型把第三人称视频中人的姿态提取出来，再给这个动作配上文本标注。目前我们使用大约1500万个“文本+动作”配对来训练它，再配合人的第一视角视频，相当于把视觉模态也加了进来。

举例来说：像“走路绕过面前障碍物”这种动作，我们既有全身动作和文字描述，也有人眼看到的第一视角视觉数据。把这些加在一起，就可以生成对应的动作序列，再通过我们的动作跟随模型Being-W，控制机器人跟随刚才生成的动作序列。

△Being-H模型控制的机器人正在将不同形状的零件进行分拣归纳，图片：采访人提供

套壳做Demo挺常见，但解决不了实际问题

智能涌现：那么，我们距离理想中能独立工作、能泛化的具身模型还有多远？

卢宗青：要是我能准确判断还有多远就好了（笑）。不过，我们在2026年1月推出的Being-H0.5灵巧手模型，比半年前推出的Being-H0在泛化性以及跨本体性能上，确实有了非常显著的提升。

智能涌现：那么你认为，模型能力的质变是突然涌现的，还是一个循序渐进的过程？

卢宗青：不会是循序渐进的。这可能会源于方法层面的变化，或者模型结构的变化。但从科研角度来看，肯定不是一成不变地坚持做（当前的方法）就能做出来的。

智能涌现：新发布的Being-H0.5模型，具体表现如何？

卢宗青：Being-H0.5的预训练，除了包含大量视频数据，也采用了来自30种不同构型本体的真机数据，实现了跨本体的大规模数据融合。

模型训练完成后，可以同时部署在5个不同本体上。其中让我觉得惊艳的瞬间是：用宇树G1采集的快递扫码分拣任务数据训出来的模型，第一次上机就能直接让PND的Adam-U成功执行同一个任务。

而且Being-H0.5具备很高的端侧部署速度，在常见的小型算力板Orin-NX上，可以实现模型动作生成与机器人运动的实时同步。

智能涌现：泛化性这件事具体怎么评定？具身模型现在有比较公认的Benchmark吗？

卢宗青：其实我们说的就是任务的成功率。现在业内有一些Benchmark，比如LIBERO、RoboCasa，不过具身的Benchmark还在不断迭代中。

智能涌现：命名“Being-H 0.5”，和PI 0.5有关系吗？

卢宗青：无关。只是我们认为现在模型的能力还在0.5的阶段。

市面上确实有一些号称自研模型的公司，实际上是套壳PI 0.5的具身模型，只是在后训练时加了一些数据而已。但我们不是。除了VL基座模型，剩下的都是我们自己训练的。

智能涌现：现实很骨感，看Demo却让很多人误以为机器人已经可以做很多事了。听说Demo的拍摄也有很多“技巧”？

卢宗青：Demo的坑确实不少。比如，在没有特殊说明是“自主操作”的情况下，有些Demo里的任务其实可能是通过遥操控制的。

智能涌现：所以落地在工厂里真正干活，其实还是不容易的？

卢宗青：对。如果眼下就能落地干活，大家就不需要建那么多数采工厂、收集那么大量的数据来做训练了。

智能涌现：最后讨论一下当下的热点方向“世界模型”吧。很多人认为这个技术会在2026年解决具身泛化性的问题，你似乎有不同的看法？

卢宗青：我对“世界模型”这个说法一直比较谨慎。现在世界模型的定义其实非常混乱。

如果它只是用来在训练过程中提供一些合成数据、生成训练数据，那当然可以——最多就是做一个“数据生成器”。

但如果最后讲的故事，是把它部署到机器人上直接控制操作，那就会变得极其复杂、极其消耗算力。因为它需要把机器人每一步的Action都考虑进去，生成一条轨迹，还要预测大量可能发生的情况。