首页 > 教程攻略 > ai资讯 >0.9B跑出90%真机成功率,上海交大为VLA补上空间感

0.9B跑出90%真机成功率,上海交大为VLA补上空间感

来源:互联网 时间:2026-05-26 16:01:10

机器人看得见,但不一定看得准。这几乎是当前视觉-语言-动作(VLA)模型面临的一个普遍困境。大量模型仍然主要依赖二维视觉信息,一旦遇到需要精确定位、细微摆放或是判断物体遮挡关系的任务,成功率就会大打折扣。

要补上空间感知这块短板,通常有两条路可走,但各有各的代价。显式3D路线依赖深度传感器和点云重建,硬件链路长,对设备标定误差非常敏感;隐式3D路线则试图直接从RGB图像中学习几何信息,虽然省去了额外硬件,但不少方案依赖庞大的基础模型,训练和推理的成本都居高不下。

现在,上海交通大学MINT实验室团队提出了一条颇具巧思的中间路线:

Evo-Depth

。这个约

0.9B

参数的模型,不增加额外的硬件负担,而是通过一种紧凑的隐式深度编码方式,将空间感知能力“写”进VLA的策略中,在仿真与真实机器人部署场景下,同时兼顾了性能与效率。

从结果来看,它在仿真基准测试中表现不俗:Meta-World任务上达到84.4%成功率,LIBERO任务上更是高达95.4%。部署到真实机器人上,平均成功率也能维持在90%左右。更关键的是部署开销:仅需约3.2 GB的GPU显存,推理频率能达到约12.3 Hz。

代码、模型权重及训练脚本均已全面开源。

轻量、可端到端训练

Evo-Depth的核心设计思路非常清晰:从多视角的RGB图像中提取紧凑的隐式深度表征,再以轻量化的方式将其融入视觉-语言通路,最终通过一个基于flow-matching的动作专家模块输出连续、精细的动作指令。

整个系统架构可以拆解为三个关键部分:

1. 隐式深度编码模块(IDEM)

这个模块的任务是从多视角图像中提取隐式深度特征。它的重点不在于生成高成本的、显式的3D中间表示(如点云),而是强调捕捉空间布局和相对几何关系。为了实现轻量化,IDEM的主干网络参数控制在约0.13B,并借助多视角深度预训练进行初始化,从而在参数有限的前提下,引入了与深度相关的先验知识。

2. 空间增强模块(SEM)

SEM的作用是将IDEM提取的隐式深度特征,作为一种调制信号,来增强视觉-语言联合表征。这种融合方式比直接增加一个独立的深度处理分支要克制得多:原有的视觉语言模型(VLM)继续专注于语义理解,而深度特征则主要负责提供空间信息的补充。这种分工协作的设计,旨在提升性能的同时,尽可能控制延迟和显存开销。

3. 渐进式对齐训练

当多个模块需要联合训练时,优化过程很容易变得不稳定。为此,研究团队采用了渐进式对齐训练策略。训练分阶段进行:首先对齐深度表征,然后进行多模态融合,最后再学习动作策略。这种分步走的方法,有效提升了训练的稳定性和最终效果。动作头则采用了当前VLA领域较为流行的flow-matching方法。

在总参数约0.9B的配置下,论文报告的综合性能如下:

仿真基准:

Meta-World成功率84.4%,VLA-Arena成功率41.1%,LIBERO成功率95.4%,LIBERO-Plus成功率69.6%。

真机测试:

平均成功率约90%。

部署指标:

约需3.2 GB GPU显存,推理频率约12.3 Hz。

值得注意的是,除了关注基准测试分数,论文也明确给出了部署侧的开销与实时性指标。对于最终需要运行在机器人实时控制回路中的VLA系统而言,这部分信息的重要性,丝毫不亚于任务成功率。

性能、成本与实时性的折中艺术

归根结底,Evo-Depth试图解决的是一个非常实际的问题:

如何在不显著增加系统整体负担的前提下,有效提升VLA模型的空间感知能力。

从结果看,它确实找到了一种平衡:相比纯二维的VLA模型,它补充了关键的空间信息;而相比那些更“重”的、依赖显式3D或庞大基础模型的方案,它又最大限度地保留了部署的效率和可行性。

对于正在深耕机器人操作、空间智能或VLA系统开发的团队而言,这类在

性能、成本和实时性

之间寻求精妙折中的方案,其价值正日益凸显。在追求更高智能的同时,如何让算法真正“落地”,始终是工程化道路上无法回避的挑战。