首页 > 教程攻略 > ai资讯 >连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?

来源:互联网 时间:2026-06-08 13:28:45

在具身智能最难啃的“泛化”这块骨头上,又有人拿出了硬货。而且,他们不只是发了顶会论文就算完,还把这两项成果沉淀到了自己的 VLOA 大模型里,推动机器人向真实世界又迈进了一大步。

ICRA 的连续高光:从获奖到再度入围

6月初,机器人界的顶级会议 ICRA 2026 在维也纳举行。RoboScience 机器科学首席科学家、新加坡国立大学的邵林老师,他们的团队有一篇关于双手操作的最新论文,直接入围了机器人操作方向的最佳论文奖提名。要知道,同时入围的还包括伯克利、斯坦福、MIT、清华这些全球最顶尖的团队。

但这可不是邵林团队头一回站上ICRA的聚光灯下了。去年,他们就是凭借一个叫 D(R,O) Grasp 的通用灵巧抓取框架,从四千多篇论文里杀出重围,拿下了同一个方向的最佳论文奖。这可是近五年来,亚洲机构作为第一单位头一回拿到这个奖。

更夸张的是,今年的ICRA 2026,邵林团队共有10篇论文被录用,方向覆盖了灵巧抓取、社交导航、低成本力感知和混合任务规划。这哪是单个团队的成果,简直是把具身智能的核心技术线都给拉了一遍。

从去年的冠军到今年的提名,邵林团队也成了近五年来,亚洲唯一一个能连续两年在这个方向获得奖项认可的团队。这成绩单就摆在台面上,不光是他们自己创新能力强,也实实在在地展现了中国具身智能企业在国际顶级学术舞台上的技术实力。

但说句实话,比起拿奖本身,这两篇论文背后共同指向的那个核心问题,才更值得我们去琢磨:就是那个所有想走向真实世界的机器人都绕不开的门槛——

泛化操作能力

破局双臂操作的泛化难题:Bi-Adapt

机器人的双臂操作,可比单臂抓取复杂多了。两只手不光要各自找到合适的接触点和动作方向,还得懂得互相配合。以前的办法,要么是为不同物体人工设计动作,要么就砸海量数据去训练。但前者应付不了现实世界里千奇百怪的形状,后者呢,烧钱、费时、还费力。

Bi-Adapt 的牛X之处在于,它让机器人能把学会的双臂操作经验,直接迁移到一个压根没见过的全新物体上。而且,只需要几次试错调整,在仿真和真实环境里都能保持很高的成功率。

Bi-Adapt,一种用于高效学习通用双臂操作的新框架。

仿真测试的结果很有意思:Bi-Adapt 在五类全新的双臂操作任务上,成功率达到了59%到70%,远远超过了各种经典的基线方法。比如启发式规则、M-Where2Act、DualAfford 这些,都被它甩在了后面。

在真实机器人的测试里,它也成功完成了展开、打开、取盖这些任务。这说明,跨类别的操作能力从仿真迁移到真实环境,这条路是走得通的。

真实机器人验证。

简单来说,Bi-Adapt 把跨类别双臂操作简化成了“三步曲”:先找准下手的“位置”,再学会两只手的“配合”,最后用几次小试错来“微调”。

Bi-Adapt pipeline 主要包括动作学习、可供性迁移、少样本适配和最终执行四个阶段。

第一步,是在已知的物体上建立“操作经验库”。系统会记录下,成功操作时两只夹爪分别接触哪里、用什么方向运动、以及它们之间是如何协同发力的。

这里有个关键设计:Bi-Adapt 没把两只手看成独立的执行器,而是把双臂动作拆成了两个相互依赖的模块。训练时的数据流是反过来的:先训练第二只夹爪,在知道第一只手动作的情况下,如何配合;再去训练第一只夹爪,学会提出更有利于整体协作的动作。说白了,就是让第一只手学会为第二只手创造更好的配合条件。

第二步,是靠视觉基础模型来做“跨类别语义对应”。机器人在没见过“钳子”的情况下,如果它学过如何操作“剪刀”,它就会借助一个叫 DIFT 的模型,在剪刀上成功的接触点,和钳子的各个像素之间,寻找视觉上最像的地方。

第三步,是少量试错适应。视觉上的相似不一定代表物理上就能操作。机器人会拿着这些候选接触点去试几下,如果失败了,就根据反馈来微调模型,过滤掉错的接触点,修正夹爪的动作方向。

最后,一个能操作新类别物体的策略就这么搞定了。

从“怎么操作”到“谁来操作”:D(R,O) Grasp 的泛化视角

如果说 Bi-Adapt 解决的是“不同物体怎么操作”,那去年获奖的 D(R,O) Grasp 解决的就是另一个泛化挑战:不同的灵巧手之间,怎么才能共用同一套抓取能力?

它的思路是把机器人的手和物体都表示成点云,然后去学习它们在稳定抓取时,应该形成的空间距离关系。这样一来,一个AI模型就能直接支持 LeapHand、Shadow Lite、XHand、SoftHand 这些五花八门的灵巧手,不管你是3指、4指还是5指,软体还是硬质,都能完成复杂的抓取操作。

这两项顶会级的工作放在一起,就清晰地勾勒出了邵林团队近两年的技术主线:机器人的操作能力,不该绑定在特定的硬件、特定的物体或特定的场景上,而是应该逐步沉淀为一种可复用、可迁移的通用能力。

把顶会神技“接”进通用大脑:VLOA 大模型

邵林之前也聊过,具身智能的大模型,不能直接照搬CV或NLP那套“大算力堆数据”的经验。图像和文本的数据格式是相对统一的,但机器人操作面对的是任务、物体和本体三重多样性,没有统一的数据格式,这些数据就很难放在一起学,模型也形不成真正可迁移的能力。这也是现在流行的VLA路线的核心瓶颈。

RoboScience 机器科学提出的 VLOA 路线,就是为了解决这个瓶颈。VLOA 的关键是在“视觉”和“动作”之间,加了一个“物体”环节,也就是以物体为中心的状态变化表示。不管是拿起杯子、打开盒盖,还是插入零件,这些动作最终都能被描述成物体在三维空间里的位置、姿态和形态变化。而 Object Trajectory,也就是物体3D连续点云轨迹,正是这种变化的统一表达。

基于这个想法,邵林团队搭建了一个“具身世界模型 + 通用操作模型”的双引擎架构,目标是指导“任何机器人去操作任何物体、完成任何任务”。

RoboScience 机器科学提出的 VLOA 框架,一个双引擎架构。

在这个架构里,上层的具身世界模型负责理解任务语义,预演物体在三维空间里的状态变化。它主要从互联网视频、说明书、多模态数据里学习常识。下层的通用操作模型则负责把这个状态变化,翻译成具体机器人的动作指令。它学的是物理规律、接触、力、约束和控制,可以通过自研的物理引擎和仿真数据大规模训练。连接它们的关键,就是 Object Trajectory 这个接口。

这套框架的能力,已经在真实任务里得到验证。去年5月,RoboScience 基于 VLOA 大模型,完成了一个全球范围内复杂度、精度和步骤数都极高的具身操作任务——拼家具。

邵林(左)和田野(右)

这个创始团队的搭配很有意思:一头是邵林,把持着机器人操作、灵巧手、跨本体抓取这些方向的前沿学术积累;另一头是田野,负责大规模AI基础设施和工程系统的落地经验。

邵林是斯坦福博士,长期深耕机器人操作。值得一提的是,他和 Hillbot 的苏昊、银河通用的王鹤、穹彻智能的卢策吾同属斯坦福机器人与AI学术谱系,和其中几位是师兄弟关系。田野毕业于中科大物理系,斯坦福AI Lab硕士,师从吴恩达,后来在苹果做了AI Platform技术负责人。

目前,RoboScience 已经在机器人本体、末端执行器、多模态物理仿真等关键环节实现了全栈布局,走的是软硬一体的路子。

自研的高精度通用物理仿真平台 「RoboMirage」

在资本和产业层面,RoboScience 已经获得了京东、商汤、达晨财智、招商局创投等多家CVC和财务机构的支持,在北京、深圳、苏州、杭州都设有研发和生产中心。团队也是来自斯坦福、中科大、新加坡国立大学这些顶尖高校,以及苹果、字节、腾讯、大疆这样的头部科技企业。

产业化方面,他们已经和多家零售、物流、康养服务企业,以及机器人本体和灵巧手公司开展试点合作,并且计划在今年实现面向工业与商业场景的标准化机器人本体产品量产。

随着机器人涌入零售、物流、工业、家庭这些真实场景,真正的竞争,将从单点演示转向通用操作能力、数据闭环和系统工程能力。在这个行业的重要拐点上,从顶会论文到工程系统,从泛化算法到真实机器人生产力,RoboScience 试图打通具身智能从“学术顶尖”走向“规模化落地”的最关键一跳。在这条通往物理世界的万亿赛道上,他们不仅是在探索机器的边界,更是在加速未来的到来。

参考链接

https://nus-lins-lab.github.io/drograspweb/static/data/D(R,O)Grasp.pdf

https://arxiv.org/pdf/2602.08425

相关阅读