ACE-Ego - 大晓机器人联合港中文开源的具身操作 VLA 模型
来源:互联网
时间:2026-06-18 14:55:54
ACE-Ego是什么
先说几个核心判断。具身智能领域一直面临着一个老大难问题:不同机器人的“身体”千差万别,一个模型很难通吃。大晓机器人和港中文MMLab这次开源的ACE-Ego,试图从根本上解决这个痛点。
简单来说,ACE-Ego是一个一脑多型的具身操作VLA模型。它的训练数据很有意思——超过6000小时的人类第一视角操作视频。这就像让模型先通过“看人干活”来理解任务本身,而不是一上来就学机器人特有的动作。通过相机空间动作和形态条件编码这两个关键技术,同一个模型可以适配完全不同的机器人本体。
效果如何?在RoboCasa GR1 TableTop基准上,它以72.8%的成绩刷新了SOTA。更关键的是,像塑料袋打包、鞋盒装鞋这类复杂零售操作,它也能稳定完成。这意味着多本体部署的成本可以大幅下降。
ACE-Ego的主要功能
- :同一VLA模型通过形态条件编码,就能适配不同机器人本体,不需要为每台机器人单独训练。
一脑多型适配
- :支持长周期、强接触的零售操作,比如塑料袋打包、鞋子装入鞋盒这类精细任务。
复杂操作执行
- :在高难度双臂操作基准RoboTwin 2.0中达到90.62%成功率,复杂双手协作不在话下。
双臂协调控制
- :模型和相关资源全部开源,大大降低了具身智能的研发门槛。
开源生态开放
ACE-Ego的技术原理
这里要重点解释几个关键设计,它们共同构成了ACE-Ego的核心竞争力。
- :整合了6000+小时人类第一视角视频、多本体机器人演示和仿真数据进行预训练。思路很清晰:用人类日常操作视频建立通用操作表征,再通过少量机器人数据微调实现技能迁移。这比单纯依赖昂贵的机器人演示数据要高效得多。
以人为中心的预训练
- :将动作预测统一到相机坐标系下。这样一来,不同机器人本体和相机视角差异带来的动作空间不一致问题就迎刃而解了,模型可以跨形态输出统一的动作指令。
相机空间动作
- :通过编码机器人形态信息,如关节结构、自由度配置,让模型理解不同本体的物理约束。这样,同一个模型内部就能适配多种机器人硬件。
形态条件编码
- :引入可靠性评估机制,在训练过程中区分高置信度与低置信度动作预测。这个设计对复杂接触操作中的稳定性和安全性至关重要。
可靠性感知训练
如何使用ACE-Ego
部署流程设计得比较清晰,按步骤来就行:
- :先克隆官方GitHub仓库,安装好Python依赖环境,确保系统支持PyTorch和CUDA。
环境准备
- :从开源渠道获取ACE-Ego预训练权重文件,加载以人为中心预训练的VLA基础模型。
模型下载
- :通过形态条件编码接口,录入目标机器人的URDF结构、关节自由度和相机参数,完成一脑多型适配。
本体配置
- :对机器人搭载的RGB-D相机进行内外参标定,建立统一的相机空间动作坐标系。
相机标定
- :如果需要处理特定任务,可以采集少量机器人演示数据,结合人类视频预训练权重进行轻量级微调。
数据微调(可选)
- :将机器人实时相机画面和语言指令(比如“把鞋子装进鞋盒”)输入模型。
视觉输入
- :模型会输出相机空间下的末端执行器动作序列,包括位置、姿态和夹爪开合度。
动作推理
- :将相机空间动作指令转换为目标机器人本体的关节控制信号,驱动硬件完成操作。
映射执行
- :启用可靠性感知模块过滤低置信度动作,确保长周期复杂操作的安全稳定执行。
可靠性校验
ACE-Ego的核心优势
- :RoboCasa GR1 TableTop上72.8%的成绩刷新了SOTA,大幅超越π0.5(37.0%)和GR00T-N1.6(47.6%)等主流模型。
性能领先
- :一脑多型架构支持同一模型适配不同机器人,多本体部署成本显著降低。
跨形态泛化
- :在强接触、长周期零售操作中表现稳定,覆盖了从商品整理到打包履约的完整链路。
复杂任务能力
- :基于人类视频预训练,大幅减少了对昂贵机器人演示数据的依赖。
数据效率高
ACE-Ego的项目地址
- :https://acerobotics-vla.github.io/ACE-Ego/
项目官网
- :https://github.com/ACERobotics-VLA/ACE-Ego-0
GitHub仓库
- :https://acerobotics-vla.github.io/ACE-Ego-0/paper.html
技术论文
ACE-Ego的同类竞品对比
拿它和目前业界知名的π0.5做个直接对比,差距一目了然:
| 维度 | ACE-Ego | π0.5 |
|---|---|---|
发布方 |
大晓机器人 × 港中文MMLab | Physical Intelligence |
定位 |
一脑多型具身操作VLA | 通用流匹配VLA模型 |
RoboCasa GR1 |
72.8%(SOTA) |
37.0% |
预训练数据 |
6.0K+小时人类视频 + 机器人数据 | 大规模多本体机器人数据 |
核心特色 |
以人为中心、相机空间动作、形态条件编码 | 流匹配动作生成、大规模预训练 |
开源状态 |
开源 |
闭源(API/模型权重受限) |
形态适配 |
原生支持一脑多型 | 需针对各本体单独微调 |
可以看到,ACE-Ego在性能领先的同时,开源和跨形态适配的优势非常明显。
ACE-Ego的应用场景
- :超市、便利店等场景中的商品整理、塑料袋打包、鞋盒装鞋等线下零售操作自动化。
零售履约
- :仓库内物品分拣、装箱、码垛等需要强接触操作的物流环节智能化。
物流仓储
- :家庭环境中的物品收纳、整理、简单清洁等日常家务操作辅助。
家庭服务
- :商场、酒店、餐厅等场景中的物品搬运、陈列维护与台面整理。
商业服务
- :生产线上的零部件装配、工具取放、物料转移等精细工业操作。
工业制造