死磕机器人大脑的北大副教授,和我们聊了聊具身领域最大的“偏见”
2026年,具身智能领域的分化趋势已然清晰。北京大学计算机学院副教授、“智在无界”创始人卢宗青给出了一个直截了当的判断:
“软硬分化。”
软,是模型大脑;硬,是机器人本体。分化,意味着不同公司各有所长,各司其职。
“智在无界”所在的北京鼎好大厦,聚集了智源研究院、零一万物、银河通用等一众明星AI机构。在这里,关于人工智能的非共识每天都在发生。而卢宗青的观点,恰恰与当下具身行业的主流发展路径背道而驰。放眼望去,那些获得高估值的具身创业公司——无论是已跻身“独角兽”行列的智元机器人、银河通用,还是融资势头迅猛的星动纪元、星海图——都在执着地追求同一个目标:软硬一体,做全栈。
但卢宗青和他于2025年创立的“智在无界”,偏偏选择“逆势”而为,只做一家模型公司,专注研发机器人大脑,不涉足硬件制造。
智能涌现独家获悉,智在无界已于近日完成天使轮融资,金额数千万元,由拉卡拉旗下考拉基金领投,领航新界、灵心巧手跟投,老股东联想之星和星连资本持续加注。
“具身行业对‘纯软’这件事,存在比较大的偏见,国内如此,国外也一样。”卢宗青直言不讳。他举了个例子:软硬都做的美国具身智能创业公司Figure,估值比只做具身模型的Physical Intelligence高出数倍。
不过,2026年开年,美国机器人圈的一笔大交易,或许正在为“一级市场重新定价具身模型公司”这件事开个好头:1月14日,机器人模型初创企业Skild AI完成14亿美元C轮融资,估值翻了三倍,达到超140亿美元,成为2026年机器人行业最早诞生的千亿独角兽。
这笔交易把问题摆上了台面:如果模型公司能做出通用于不同本体、不同任务的“大脑”,那么具身智能企业是否还有必要将整条技术栈都背在自己身上?
这正是智在无界想要证明的——做跨品牌、跨形态的具身智能模型。
目前,公司已推出灵巧手操作模型Being-H系列,能够控制双足机器人移动和操作的Being-M模型也正在研发中。最新发布的Being-H0.5模型,已能够控制30种不同构型的机器人;其端侧部署能力经过推理优化后,在英伟达Orin-NX等常用的小型机器人芯片上也能实时跑起来。
目前,公司的客户已包括PND、灵心巧手等硬件公司。PND近日与智在无界联合发布的Adam-U Ultra机器人,正是“软硬协作”的典型故事——接入Being-H后,PND的高自由度机器人可以“开箱即用”地完成整理桌面、分拣扫码等通用技能;再配合智在无界的增值服务Being-Dex,仅需少量数据的后训练,数小时就能学会新任务。
实现上述能力的核心,在于超过3万小时的预训练数据——卢宗青介绍,这已是当前全球规模最大的具身智能模型训练数据集。而背后支撑这一切的,是一套独特的“人类动作视频”方案。
(《智能涌现》注:此处“最大”特指用于具身智能模型预训练的数据集。)
这套方案的操作很简单:在人类的正常工作生活中,通过头戴摄像头录制第一视角的手部动作视频。这样一来,数据规模大、成本低,更能完整记录人类的复杂操作。相比之下,多数全栈公司依赖的“遥操作采集”模式,因需要人工操控特定机器人,成本高、规模小,且数据与硬件深度绑定,局限性显而易见。

△头戴摄像头可以在不干扰操作者正常工作的情况下,录制第一视角的手部动作视频,图片:采访人提供
2023年底,卢宗青就开始采用这一数据思路进行模型训练。他记得,当时这一方案并未在业界引起太大反响,主流方向仍是仿真数据和真机数据。但从2025年起,包括特斯拉Optimus在内,越来越多的机器人公司开始采用人类视频数据方案。他判断,2026年行业内会有更多公司认清“软硬分化”的价值。背后是一笔再清晰不过的经济账:纯自研一个具身模型,算上买卡、招人等成本,年开销高达数千万甚至上亿;而外采一台机器人“大脑”,一次性成本只需几万元。
在他看来,“软硬一体”因为布局全面而更受一级市场青睐,但现实是,技术栈实在太长了——做模型和做硬件本就是两套完全不同的能力体系,一家公司很难把两头都做深、做透。过去一年里,也因此出现了一些“为了全栈而全栈”的公司:套壳VLA、做出看似能干活的Demo,拿到融资后,却无法在真实场景里落地赚钱,或因模型套壳被曝光而遭到技术能力的质疑。这促使更多创业者开始审视全栈路线的真实难度与性价比。
“我不想把资源分散在自己不擅长的硬件上。”卢宗青说,技术还没收敛,探索更要保持轻量,这也是他选择死磕“大脑”的原因。

△ 卢宗青,图片:采访人提供
具身模型与本体,分工将会更明确
智能涌现:国内头部具身企业还是以“软硬一体”为主,智在无界只做模型,会在融资时遇到困难吗?你怎么看这个情况?
卢宗青:智在无界正式开始运营是在2025年5月,当时纯模型的路线想融资确实不容易。美国市场的情况也类似,软硬都做的Figure估值会比只做具身模型的Physical Intelligence高出一大截。
(作者注:2025年9月,Figure估值约为390亿美元;2025年11月,Physical Intelligence估值约为56亿美元。)
原因其实不难理解:具身是一个全新的行业,最初大家也看不清未来产业链的形式会是什么样,所以早期投资人更愿意把钱投给什么都做的企业。
但估值只是暂时的,它从本质上并不代表公司的业务一定能做好。我想做的是像OpenAI那样的企业:一开始更偏向科研,能第一个做出“ChatGPT”,然后在此基础上开展商业化。
智能涌现:怎么才算“公司业务做好”?或者说,一个好的具身大脑模型,核心解决什么问题?
卢宗青:核心是通过预训练模型,为机器人赋予一种基础的“运动与操作基因”。
人类虽然不像马、鹿等动物,一生下来就有很强的运动能力,但我们的基因赋予了我们比较好的运动潜力,通过后天训练可以激发出来。机器人也是同理——预训练模型相当于赋予了机器人“开箱即用”的初步运动能力。
智在无界也会基于具体任务,到不同的机器人本体上做后训练。如果预训练的大模型能力足够强,那么后训练加部署的环节里,大概30分钟就能让机器人学会一个新任务。
智能涌现:但估值高会带来更多资金储备,所以可以做更多技术上的探索。这在技术没收敛的阶段,能否加大“做好模型业务”的概率?
卢宗青:但估值高了也会有恶性循环——企业可能会去尝试各种技术和商业化的路线,钱投进去了,却没做出成果。归根结底,估值和业务成败不是绝对的关系。
智能涌现:所以现在能感受到一级市场的变化吗?原因是什么?
卢宗青:现在可以看到,具身模型公司的估值确实越来越贵了。
原因是,从业务层面来看,现在很多机器人本体公司会主动来找我们合作。大家算过“自研模型到底能不能赚钱”这笔账之后,逐渐意识到一个问题:具身智能本体公司做不做模型,本质上是个商业行为。行业会越来越走向软硬分化的形态。
智能涌现:从算账的角度来看,训一个好的具身模型,一年要花多少钱?几千万到一个亿?
卢宗青:对。一个模型大概需要10个人,年薪就要2000万元。算力也很贵:如果是100台机器,每台8张卡,用A800的卡,每个月需要大概300万元;如果用H200的卡,每个月的成本就要900万元了(含存储)。
这还没算上数据和其他的成本。现在最便宜的第一视角视频数据,大概是几十元一小时;动捕数据大概在几百元一小时。
智能涌现:智在无界现在的付费模式是什么?为什么说比企业自研要便宜?一个硬件厂商,会不会担心软硬分化以后,自己因为没有软的能力,被模型公司“坐地起价”?
卢宗青:目前的收费方式是一台机器人部署,收一次性的License费用,几万到十万元不等。对于出货量不大的公司来说,这远小于自研成本。此外,我们还有根据数据量收费的后训练服务Being-Dex。
当本体企业出货量达到一定程度时,也可以采取类似SaaS年包的付费方式。而且,到那时模型公司也会有多家,大家形成竞争关系,本体厂商就不怕某一家“坐地起价”了。
智能涌现:如果技术收敛了,不再需要花那么多成本搞研发,本体公司会不会自己就把模型的业务做了?这样会对纯模型公司构成威胁吗?
卢宗青:如果真到了技术收敛、一个通用模型能做很多事情的阶段,机器人会进入家庭。那时我反而认为模型公司的市场会更大,甚至可以做到To C。
届时可能会出现像微软那样的大软件公司;也可能出现像华&为那样同时具备软硬件产品能力的企业。到了那个阶段,我们也不排除通过OEM的方式去做真正的机器人产品。

△Being-H模型控制的PND机器人正在给快递扫码,图片:采访人提供
2027年,100万小时数据量或将带来模型能力的质变
智能涌现:你此前一直从事计算机领域的研究,后来是怎么和具身智能产生交集的?
卢宗青:2023年,我通过多模态大语言模型去玩开放世界游戏《荒野大镖客2》,结果发现模型的任务理解和动作完成能力都极其有限。当时我就意识到,模型交互能力弱的根本瓶颈在于缺乏对视觉和空间的理解。而要提升这一点,与真实世界的交互数据必不可少。
这成了我最初投入具身智能模型研究的契机。
智能涌现:你说智在无界正式创立后不久,就利用2025年暑假去好几家工厂调研具身智能的落地情况。你们发现了什么行业问题或现状?
卢宗青:印证了之前的判断——现阶段的具身智能远远没到可以落地真干活的水平,核心卡点在于泛化性。
比如在束线整理、精密组装这类动作非标且复杂的工序上,具身智能“独立自主完成工作”的能力仍然有限。行业对外讲的“工业场景落地”,大部分还停留在演示或短周期的POC(概念验证)阶段。
智能涌现:原因是什么?
卢宗青:原因一部分在硬件——缺乏稳定好用的高自由度灵巧手;灵巧手也缺触觉,这意味着接触点等重要的力反馈信息是缺失的。
另一部分原因在模型——过去业内更多使用二指夹爪,行业还没研发出真正能干活的灵巧手模型。
智能涌现:你早于业界共识,提出采用人的视频做预训练数据。智在无界发布第一个模型时,业内反馈如何?
卢宗青:2025年七八月份,我们做出了第一个灵巧手模型Being-H0,业内反馈还不错。英伟达总部也专门派人过来了解这个模型在算力方面的细节。
当时大家普遍觉得这是个新思路。那时业内主要还在用机器人本体采集的数据。我们确实是第一个采用大规模人类视频数据做模型预训练的——Being-H0用了大约100万条第一人称视角下、人手操作的视频。
智能涌现:你从2023年底就开始用人类视频数据的技术路线训练具身模型,行业去年也在紧锣密鼓地迭代各种技术方案。但为什么至今还没做出一个泛化性好、真能干活的具身模型?
卢宗青:我们在具身模型的训练上花了大约两年时间。过去的问题中,最本质的有两点:一是数据量不够多;二是模型训练还缺乏很好的范式。
智能涌现:要让具身智能具备泛化能力,多大量级的数据才够?
卢宗青:我们目前积累的数据在四五万小时左右,包含第一人称视频和一部分机器人真机数据。
我认为,数据规模可能需要达到100万小时量级,才更有可能让机器人快速学会复杂的新任务,具备真正的泛化能力,从而在产线上实际用起来。这个量级,大概在2027年可以达到。
另外,数据来源不能只局限于单一或少数场景。我们收集数据时,会特别注重多样性——不同场景、不同任务的数据,都在持续积累。
智能涌现:之前做了一两年,才积累了四五万小时的视频,怎么在2027年就把量堆到100万小时?
卢宗青:过去视频量级一直只有四五万小时,原因是当时技术路线还没转到“人的视频”上来,所以很少有人系统地做这件事。
我们早期的数据有一部分来自互联网,比如用GoPro拍摄的第一视角;也有我们自己采集的,包括第一人称视频和用动捕设备捕捉的动作数据。
现在,行业对视频训练数据的需求明显起来了,最近也出现了不少专门生产视频数据的创业公司。我们这边还有合作工厂提供数据——比如工人头戴摄像头工作时拍摄的手部数据。
智能涌现:你说从方法论来看,训练的大框架其实都差不多,真正的差异在细节和工程上。智在无界具体是怎么做的?
卢宗青:智在无界采用的是“预训练-后训练”双层框架。在预训练阶段,通过大量人类视频让模型模仿人类,理解视觉和文本信息,输出人类动作。
在后训练阶段,将预训练中基于二维画面学到的信息,与物理空间对齐,转化为可以在物理世界中驱动机器人的控制信号,并适配不同的机器人本体。
在这些环节中,我们做了一些细节上的工程工作。比如,在数据处理上,我们建立了一套自动化的数据处理工作流,整个过程基本不需要人工干预。系统会自动爬取网络上的视频,调用模型标注视频中动作的文字描述,再将视频中有用的片段截取出来。此外,我们还通过给视频中的关节进行标注,让不同来源、不同角度、不同清晰度的视频里的二维动作画面,都能统一到同一个3D空间里,最终整理成可直接用于训练的“视频-文字描述-动作”数据对。
在后训练阶段,我们会更积极地探索多模态的融合,比如加入触觉带来的力反馈,补充模型学习所需的重要信息。
智能涌现:除了灵巧手大模型,听说智在无界即将发布一个适用于双足人形全身的大模型。可以先大概介绍一下吗?
卢宗青:这是我们正在研发的多模态移动操作模型——Being-M系列。它的数据会更复杂一些:同一个动作,既包含第一人称和第三人称视频,也包括动捕数据,这些数据是相互对齐的。
在预训练阶段,我们先通过模型把第三人称视频中人的姿态提取出来,再给这个动作配上文本标注。目前我们使用大约1500万个“文本+动作”配对来训练它,再配合人的第一视角视频,相当于把视觉模态也加了进来。
举例来说:像“走路绕过面前障碍物”这种动作,我们既有全身动作和文字描述,也有人眼看到的第一视角视觉数据。把这些加在一起,就可以生成对应的动作序列,再通过我们的动作跟随模型Being-W,控制机器人跟随刚才生成的动作序列。

△Being-H模型控制的机器人正在将不同形状的零件进行分拣归纳,图片:采访人提供
套壳做Demo挺常见,但解决不了实际问题
智能涌现:那么,我们距离理想中能独立工作、能泛化的具身模型还有多远?
卢宗青:要是我能准确判断还有多远就好了(笑)。不过,我们在2026年1月推出的Being-H0.5灵巧手模型,比半年前推出的Being-H0在泛化性以及跨本体性能上,确实有了非常显著的提升。
智能涌现:那么你认为,模型能力的质变是突然涌现的,还是一个循序渐进的过程?
卢宗青:不会是循序渐进的。这可能会源于方法层面的变化,或者模型结构的变化。但从科研角度来看,肯定不是一成不变地坚持做(当前的方法)就能做出来的。
智能涌现:新发布的Being-H0.5模型,具体表现如何?
卢宗青:Being-H0.5的预训练,除了包含大量视频数据,也采用了来自30种不同构型本体的真机数据,实现了跨本体的大规模数据融合。
模型训练完成后,可以同时部署在5个不同本体上。其中让我觉得惊艳的瞬间是:用宇树G1采集的快递扫码分拣任务数据训出来的模型,第一次上机就能直接让PND的Adam-U成功执行同一个任务。
而且Being-H0.5具备很高的端侧部署速度,在常见的小型算力板Orin-NX上,可以实现模型动作生成与机器人运动的实时同步。
智能涌现:泛化性这件事具体怎么评定?具身模型现在有比较公认的Benchmark吗?
卢宗青:其实我们说的就是任务的成功率。现在业内有一些Benchmark,比如LIBERO、RoboCasa,不过具身的Benchmark还在不断迭代中。
智能涌现:命名“Being-H 0.5”,和PI 0.5有关系吗?
卢宗青:无关。只是我们认为现在模型的能力还在0.5的阶段。
市面上确实有一些号称自研模型的公司,实际上是套壳PI 0.5的具身模型,只是在后训练时加了一些数据而已。但我们不是。除了VL基座模型,剩下的都是我们自己训练的。
智能涌现:现实很骨感,看Demo却让很多人误以为机器人已经可以做很多事了。听说Demo的拍摄也有很多“技巧”?
卢宗青:Demo的坑确实不少。比如,在没有特殊说明是“自主操作”的情况下,有些Demo里的任务其实可能是通过遥操控制的。
智能涌现:所以落地在工厂里真正干活,其实还是不容易的?
卢宗青:对。如果眼下就能落地干活,大家就不需要建那么多数采工厂、收集那么大量的数据来做训练了。
智能涌现:最后讨论一下当下的热点方向“世界模型”吧。很多人认为这个技术会在2026年解决具身泛化性的问题,你似乎有不同的看法?
卢宗青:我对“世界模型”这个说法一直比较谨慎。现在世界模型的定义其实非常混乱。
如果它只是用来在训练过程中提供一些合成数据、生成训练数据,那当然可以——最多就是做一个“数据生成器”。
但如果最后讲的故事,是把它部署到机器人上直接控制操作,那就会变得极其复杂、极其消耗算力。因为它需要把机器人每一步的Action都考虑进去,生成一条轨迹,还要预测大量可能发生的情况。