营收暴增50倍,一季度赚一年的钱,今年最火生意是它
封面图丨ChatGPT创作
具身智能行业对数据的争夺,已经到了近乎疯狂的程度。
“大家极度渴求千万小时以上的数据集……一小时200块钱,一千万小时就是20亿元。”基元智航创始人高少龙坦言,为了拿到高质量数据,头部公司哪怕砸下重金也在所不惜。
“现在一家公司没有百万小时数据,都不好意思说自己干具身智能。”竹马创新创始人张吉感叹,百万小时听起来很庞大,但实际上,这仅能满足真实需求的万分之一。
如果百万小时是基础入场券,那么它的价格至少是2亿元。
更棘手的问题是,就算账上有几十亿,也常常买不到——高质量的真实世界数据,实在太稀缺了。
工厂里的装配、咖啡店的服务流程、家庭的收纳整理、养老院的照护场景……这些现实世界中的行为,既不能像文字一样在网上爬取,也无法像图片那样批量下载。它们必须由人力一小时一小时地采集出来。
与此同时,资本市场已经开始为“卖数据的人”买单。
去年6月,数据标注巨头Scale AI获得了Meta的14.3亿美元投资,估值飙升至290亿美元。
今年,数据公司它石智航完成了超4.5亿美元的融资,刷新了中国具身智能行业的单轮融资纪录。另一家数据传感器初创企业渊澈太初,成立仅5个月,融资就超过了5亿元。
订单也在持续涌入。真实世界AI数据采集公司弈人科技创始人马成辉透露,今年一季度具身智能数据订单已过亿,超过了去年全年总和。灵生科技创始人杨洪兵也表示,预计今年具身数据订单的营收将有超过50倍的增长。
在美国,真人数据采集公司Mecka.ai在一年内就拿下了1亿美元的订单。
一场围绕数据的新淘金热,正在如火如荼地展开。通过与多位从业者和投资人的交流,可以清晰地看到这个行业蕴藏的赚钱机会。
买数据,2亿元起
高少龙,基元智航创始人
基元智航是一家专注于具身智能数据基础设施的创新企业,已完成天使轮融资。
整个具身智能行业,目前几乎所有公司都缺数据。如果去问国内头部具身智能公司,他们真正希望采购的数据规模,最少也是百万小时起步。
百万小时是什么概念?按普通标准计算,一小时五六十元,这就意味着五六千万元的投入。如果是深度场景数据,一小时200元,百万小时就是2亿元。
更尴尬的是,这些公司账上有几十亿,买得起,却常常买不到。

AI数据标注工作界面 来源:公开资料
由于数据质量不够高、规模不够大,今天的绝大部分模型都不是通用的,而是针对某个特定场景优化出来的。这,是整个行业共同面临的困局。
具身智能行业缺数据不是一两天了,因为真机数据根本不通用。我们几乎拜访了国内所有主要机器人厂商,无论是大厂还是小厂,得到的答案高度一致:真机数据只能训练自己的机器人,无法直接用于别人。
况且,具身智能想要真正像DeepSeek一样实现智能涌现,大概需要20亿小时的数据量级。这在人类工程史上,几乎是一项不可能完成的任务。
不过,越来越多的论文开始证明,无(机器人)本体数据是有效的。行业最终必须寻找新的路径:回归真实的人类行为。人类行为数据,将成为未来最大的具身智能数据资产。
数据有价值,不等于商业模式就成立。整个行业还有一个最大的痛点:盗版。
任何一家机构花100万元买了一份数据,理论上它都有动力复制出来。复制二十份,每份卖5万元,成本立刻收回。对于原始采集公司来说,这是最痛苦的事情,自然也失去了采集高质量数据的动力。
后来研究自动驾驶行业时发现,地平线等公司已经找到了一种新的方式:DaaS(数据即服务)。数据不离开服务器,客户带着模型进来,训练完把参数带走,数据留在原地。这样数据可以复用,又不必担心被复制。这或许才是具身智能数据行业真正的商业模式。
过去,100元成本的数据只能卖一次。未来,100元成本的数据可以服务1000家公司,平均每家公司只承担一毛钱成本。数据会像自来水一样,价格极低,随取随用,整个行业的数据供给也会迎来爆发。
目前,业内主流的模型公司年数据采购量至少是百万小时级别。不同深度的数据,价格差异非常大。
最便宜的是普通生活场景数据,比如叠被子、摆桌子、整理物品。这些动作不需要专业背景,找几个劳务外包人员就能完成,价格大概在五六十元一小时。
一旦进入真实服务场景,比如咖啡厅,成本就马上变了。因为你得出钱让老板停工配合你。这类服务场景数据的成本通常会超过200元一小时。

工业机械臂装配线,工业场景数据采集成本更高 来源:公开资料
再往下,是工业场景。很多人以为工业场景贵是因为采集难,其实真正的成本在于沟通。钱给少了,人不理你;就算给得多,大厂也不见得让你采,涉及知识产权和商业秘密。工业数据的最终价格至少要两三百元一小时。现在很多激进的模型公司,对这类数据特别感兴趣,哪怕更贵也愿意买,因为离真实生产场景更近。
最难采集的,是家庭场景。涉及隐私、财产、安全,处理起来远比工厂复杂。直到今天,行业在家庭数据采集上依然非常保守。
客户大致可以分为两类。第一类客户几乎什么数据都要,不挑场景,目标是通用具身智能基础模型。他们希望模型见过足够丰富的世界,未来针对某个行业微调时,成本会大幅降低。目前,国内少数头部团队正在这么做。
第二类企业占绝大多数。他们从第一天起就把自己定义为垂类应用,采购数据只盯着未来最有机会落地的场景。
当下需求最大的仍然是服务业数据,这也是为什么我们会大量采集咖啡厅、餐厅的相关数据。
必须强调的是:服务业并不是具身智能最有价值的方向。之所以大家都在做服务业,只是因为它的数据最容易获得。工业装配、医疗场景、深度制造等数据,大家以前根本不知道怎么低成本获取。既然拿不到,模型厂自然就不会往那个方向投入,于是市场上形成了一种错觉:仿佛服务业就是具身智能最重要的方向。
如果未来有人能大规模提供制造业、医疗、工业装配、养老照护等数据,整个行业的方向都会改变。数据公司真正的价值不是卖数据,而是创造供给,帮助行业发现新的可能性。
今年与客户交流,他们对数据的需求变化,有三个明确的方向:第一是广度,大家极度渴求千万小时以上的数据集;第二是价格,如果降不下来,模型始终无法形成商业闭环;第三是深度,具身智能公司必须开始回答一个问题——你的机器人到底在哪个场景里能创造价值?只有深度场景数据,才能帮助模型进入真实的生产和服务环境。
另一个值得关注的赚钱方向是AI标注。很多人以为采集最贵,但随着数据越来越深入,标注往往比采集更贵。普通动作数据可以找众包人员来标,但如果是烹饪数据,就涉及大量专业动作、术语和流程,需要懂烹饪的人来标,甚至需要专业厨师。厨师的一小时成本,显然和普通众包不是一个量级。随着越来越多制造业、医疗、工业数据进入市场,这个问题会更加突出。垂类场景的AI自动标注是未来非常值得关注的方向。很多垂类数据集,可能不是靠人标出来的,而是由AI完成第一轮标注,再由专家复核,这将极大降低行业成本。
1:20万的缺口
杨洪兵,灵生科技创始人
灵生科技聚焦真实场景数据引擎,已完成多轮数亿元融资。
今年年初,全行业所有具身智能数据加起来,大约只有50万小时。但要训练出真正优秀的模型,行业需要的数据量级大约是千亿小时。这相当于手里只有一个馒头,但想吃饱需要二十万个馒头。
这就是行业今天的现实。不过,数据并不是简单按小时计价去卖,我们一直反对把数据简单理解为商品。我们将具身数据从L1到L5进行了严谨分级,并建立了数据SLA(服务等级协议)体系,这在全球范围内首次对数据质量进行了量化管理。
目前市场需求最大的,是L5级数据。它的要求极高:必须经过详细标注和任务切片,具备完整的任务、场景和物体描述,分辨率通常要达到1280以上,定位精度要求达到亚毫米级。
具身数据行业不能停留在“我有数据,你来买”的阶段。卖水果还有品种区分,卖石油还有等级区分,更何况是训练大模型所需的数据。有些企业本身并不真正理解数据,只是在做二手倒卖。而更高阶的服务是,不仅提供高质量多模态数据,还帮助客户优化数据管线和底层基础设施。
今年观察到的最大变化,是Ego数据(真人第一视角数据)需求出现了指数级增长。与遥操作数据相比,Ego数据的增长非常明显。它不仅显著提升了模型效果,采集效率也比遥操作高出五倍以上,成本却更低。去年下半年,海外已经明显开始向Ego数据和以人为中心的数据转向,今年上半年这种趋势进一步放大。
另一个明显趋势是真实场景数据越来越受欢迎。以USB插拔或线束插拔任务为例,如果在素材工厂里采集,场景变化非常有限。但在真实环境中,灵生有几千名外部采集员,每个人的家庭环境、办公环境、操作习惯都不同,最终形成的数据变化可能达到上千种。这种多样性,是训练场数据很难达到的。灵生今年预计将达到120万小时的真实场景Ego数据集。
数据行业的一大乱象是精度虚标。有企业宣传定位精度达到毫米级,但根据客户反馈,实际使用时漂移严重,误差甚至达到厘米级,比标称数据差了十倍以上。如果希望产业长期健康发展,就必须结果导向,训练出真正好用、准确率更高的模型。而要做到这一点,就必须依赖高精度、高质量、高价值的数据。
从经营情况来看,预计今年订单规模将达到数亿元级别,全年营收有望达到去年的50倍以上。客户主要是头部具身智能公司,而且多数会长期复购。最关注的仍然是三个核心指标:数据质量、数据多样性、真实场景。
融资10亿,未必买得到好数据
张吉,竹马创新创始人
竹马创新是以“3D相机+AI”为方向的空间智能公司,已完成数千万元天使轮融资。
具身智能行业现在缺数据,缺到什么程度?现在能用到的数据,可能连需要量的万分之一都不到。
为什么会这么缺?第一个原因是大家不知道缺什么。大语言模型,大家知道去找文本数据。但具身智能模型需要众多模态数据叠加:物理AI、空间智能、尺寸、力学、关节、电流、声音……哪种数据优先?只有知道缺什么,才知道怎么补。现在每家公司采集数据的方向都不一样,这是底层结构性困难。
第二个原因是,文本数据可以爬取,但具身智能需要的数据在物理世界,天然没有被数据化。既然没有被数据化,就没法直接拿来训练。

服务型机器人,服务业数据目前最易获取 来源:公开资料
第三个原因是,现在只能靠采集,而且按小时计算。一个操作员每天也就七八个小时,这种方式和时间线性绑定,很难快速放大。
还有一个问题,因为不知道要什么,也没有数据标准,数据格式非常混乱。很多企业拿到新格式后发现大量数据没法用。数据本来就不多,还被浪费了。
2026年,行业突然认识到这个问题了。去年大家还在卷模型、卷算法,今年突然发现那些好像带来不了很好的效果,数据才是最核心的。所有人都开始搞数据。特别是很多人突然开始关注Ego数据,也就是第一人称数据,包括我们这种用相机采集真实三维数据的方式,也突然火了起来。
另一个原因是,一些来自智驾行业的团队进入了具身智能。他们非常坚信数据必须来自真实场景,因为智驾行业已经证明过,大量真实数据采集非常重要,90%的场景要靠真实采集。
这样下去,具身智能本体企业不一定能马上成功,但搞数据的企业,很可能会成为新一轮的独角兽。即使不是独角兽,最挣钱的也是这一类企业。简单理解,具身智能需要的数据量可能是互联网数据的万倍级别。如果这些数据都要由数据公司提供,市场将变得非常庞大。
现在一家公司没有百万小时数据,都不好意思谈具身智能。按500元一个小时来算,百万小时就是五亿元。但问题是,头部具身智能公司即便一轮融资10亿元,也未必买得到好的高质量数据。因为数据不好买,也没有那么多。所有采集方式和时间基本还是线性关系,还没有一种能指数级解决高质量真实数据供给的办法。
对具身智能公司来说,价值最高的是最早能卖出机器人的场景数据,比如工厂、物流等工业级场景。但对数据公司来说,真实场景的数据价值最高。只要是真实场景产生的数据,就有人买,不一定要严格区分场景。
从数据规模角度看,合成数据能提供的规模最大,因为它不是线性增长,有机会打破靠人和时间积累的限制。
现在建数据工厂的公司应该也挺赚钱,而且是隐形挣钱的方向。大家想建,但不知道怎么建,很多是政府给钱。这类公司能挣项目钱,但估值上未必特别值钱。所谓数据工厂,就是在一个很大的场地上,有人拿着真机操作,模拟各种场景采集数据,一排一排的,像工厂一样。问题是规模化很难,因为要靠人力。单条数据可能贵,但规模有限,所有东西都是可以算出来的,挣的是辛苦钱。
仿真数据现在仍然有需求,而且需求很大。它有机会打破线性增长逻辑,形成指数级供给。做仿真数据的人,至少目前应该是最先挣钱的一拨人。它单价便宜,但量大。做数据标注的公司也肯定会挣钱,未必是AI标注,算法标注也可以,只要能标出来就行。
总结一句:能规模化的公司肯定能挣钱。关键是不要靠人力规模化,而是通过算法规模化。现在的场景下,提供数据都会挣到钱,只是谁挣更多、谁挣更少的问题。但从长远看,最后真正能持续挣钱的,可能还是提供Data Infra的公司。靠人搞采集的模式,长期不一定能挣大钱。以前SaaS行业有Databricks,未来具身智能行业里,也会有很多类似的数据基础设施公司,不仅提供数据,还提供数据引擎、数据闭环、自动化能力、打标能力、推理能力、框架能力。
一两个月就能融一轮钱
王学辉,水木清华校友种子基金创始合伙人
水木清华校友种子基金是国内第一支高校校友基金,致力于成为“清华校友创业第一站”。
数据就像具身智能行业的“石油”,现在大家都缺油。即便是自动驾驶这样相对固定、单一的场景,也催生出了Scale AI(估值近300亿美元),国内也有很多自动驾驶标注和数据公司挣到了钱。未来人形机器人如果真的进入百行千业,数据需求会比自动驾驶高好几个量级,可能是两个到三个数量级的差距。
这个市场会很大,只是现在无论本体、具身模型、世界模型,还是数据采集路线,都还没有收敛,各种技术路线都在百花齐放。
我们布局了灵御智能、渊澈太初、手亿科技等数据采集初创企业。像灵御智能,主要是真机遥操,数据质量好,但成本相对高。今年更火的是腕带技术,包括渊澈太初、手亿科技这些公司。
数据采集成为大机会,很大程度上来自Meta的腕带技术。以前大家不太相信肌电技术能做到那么精准,但Meta把这个技术跑通以后,市场开始看到机会。据说苹果下一代产品也可能往这个技术路线靠,其他路线可能暂缓。腕带技术跑通以后,大家发现它不仅可以戴在人手上,也可以戴在机器人身上,这就把“腕带”和“数采”结合起来了。人戴腕带,机器人也戴腕带,中间就能形成连接。这是一种技术创新,也是一种模式创新。
目前数据采集公司真正赚钱的还不多,到现在应该还没有(收入成本)打平的,暂时都没有盈利。这个行业还很早,一共也就一年多时间。对这些公司来说,拿到订单就不错了,盈利暂时不是主要考虑的问题。如果都量产了,肯定就要死一部分公司,路线也会收敛一部分。
这个行业目前最大的痛点,是大家还没有找到最终收敛的路线,很多企业会同时试好几种方案。现在很多公司融资都是一两个月一轮,很难说哪条路线一定更好。我们的策略是,如果技术路线不明确,一般不会押注某一条路线。
不只是数据公司,具身整机、具身模型、世界模型也都是这样,整个行业现在都是一两个月一轮的状态。
具身数据行业会出现专门做数据的巨头企业。但头部具身整机公司可能会自己做数据。类比汽车行业,像特斯拉、比亚迪这样的巨头,很多事情都会自己做,比亚迪连电池都自己做。机器人行业最头部的几家公司,大概率也会全都做。但这并不意味着第三方独立数据公司没有空间。除了最头部的几家企业,腰部企业、尾部企业,以及各种Corner Case场景、专用机器人、特种机器人,都会存在大量数据需求。对这些企业来说,联合使用第三方独立数据公司,可能是更有性价比的方式。未来第三方独立数据公司的典型客户,至少会包含很多腰部企业,这个量足够支撑它们成长为上市公司。
数据采集公司比较成熟的商业模式,现在主要有两种:一种是一次性卖数据,另一种是按每台机器人上的数据价值做分成。企业肯定更希望未来更多采用按台分成的方式,但这里面会有博弈。投资人看一家数据采集公司是不是好公司,最核心的是看订单怎么样,有哪些具身整机企业在用它。第一线机构和客户是否使用它,是非常重要的指标。