首页 > 教程攻略 > ai资讯 >0.9B跑出90%真机成功率，上海交大为VLA补上空间感

0.9B跑出90%真机成功率，上海交大为VLA补上空间感

来源：互联网时间：2026-05-26 16:01:10

机器人看得见，但不一定看得准。这几乎是当前视觉-语言-动作（VLA）模型面临的一个普遍困境。大量模型仍然主要依赖二维视觉信息，一旦遇到需要精确定位、细微摆放或是判断物体遮挡关系的任务，成功率就会大打折扣。

要补上空间感知这块短板，通常有两条路可走，但各有各的代价。显式3D路线依赖深度传感器和点云重建，硬件链路长，对设备标定误差非常敏感；隐式3D路线则试图直接从RGB图像中学习几何信息，虽然省去了额外硬件，但不少方案依赖庞大的基础模型，训练和推理的成本都居高不下。

现在，上海交通大学MINT实验室团队提出了一条颇具巧思的中间路线：

Evo-Depth

。这个约

0.9B

参数的模型，不增加额外的硬件负担，而是通过一种紧凑的隐式深度编码方式，将空间感知能力“写”进VLA的策略中，在仿真与真实机器人部署场景下，同时兼顾了性能与效率。

从结果来看，它在仿真基准测试中表现不俗：Meta-World任务上达到84.4%成功率，LIBERO任务上更是高达95.4%。部署到真实机器人上，平均成功率也能维持在90%左右。更关键的是部署开销：仅需约3.2 GB的GPU显存，推理频率能达到约12.3 Hz。

代码、模型权重及训练脚本均已全面开源。

轻量、可端到端训练

Evo-Depth的核心设计思路非常清晰：从多视角的RGB图像中提取紧凑的隐式深度表征，再以轻量化的方式将其融入视觉-语言通路，最终通过一个基于flow-matching的动作专家模块输出连续、精细的动作指令。

整个系统架构可以拆解为三个关键部分：

1. 隐式深度编码模块（IDEM）

这个模块的任务是从多视角图像中提取隐式深度特征。它的重点不在于生成高成本的、显式的3D中间表示（如点云），而是强调捕捉空间布局和相对几何关系。为了实现轻量化，IDEM的主干网络参数控制在约0.13B，并借助多视角深度预训练进行初始化，从而在参数有限的前提下，引入了与深度相关的先验知识。

2. 空间增强模块（SEM）

SEM的作用是将IDEM提取的隐式深度特征，作为一种调制信号，来增强视觉-语言联合表征。这种融合方式比直接增加一个独立的深度处理分支要克制得多：原有的视觉语言模型（VLM）继续专注于语义理解，而深度特征则主要负责提供空间信息的补充。这种分工协作的设计，旨在提升性能的同时，尽可能控制延迟和显存开销。

3. 渐进式对齐训练

当多个模块需要联合训练时，优化过程很容易变得不稳定。为此，研究团队采用了渐进式对齐训练策略。训练分阶段进行：首先对齐深度表征，然后进行多模态融合，最后再学习动作策略。这种分步走的方法，有效提升了训练的稳定性和最终效果。动作头则采用了当前VLA领域较为流行的flow-matching方法。

在总参数约0.9B的配置下，论文报告的综合性能如下：

仿真基准：

Meta-World成功率84.4%，VLA-Arena成功率41.1%，LIBERO成功率95.4%，LIBERO-Plus成功率69.6%。

真机测试：

平均成功率约90%。

部署指标：

约需3.2 GB GPU显存，推理频率约12.3 Hz。

值得注意的是，除了关注基准测试分数，论文也明确给出了部署侧的开销与实时性指标。对于最终需要运行在机器人实时控制回路中的VLA系统而言，这部分信息的重要性，丝毫不亚于任务成功率。

性能、成本与实时性的折中艺术

归根结底，Evo-Depth试图解决的是一个非常实际的问题：

如何在不显著增加系统整体负担的前提下，有效提升VLA模型的空间感知能力。

从结果看，它确实找到了一种平衡：相比纯二维的VLA模型，它补充了关键的空间信息；而相比那些更“重”的、依赖显式3D或庞大基础模型的方案，它又最大限度地保留了部署的效率和可行性。

对于正在深耕机器人操作、空间智能或VLA系统开发的团队而言，这类在

性能、成本和实时性

之间寻求精妙折中的方案，其价值正日益凸显。在追求更高智能的同时，如何让算法真正“落地”，始终是工程化道路上无法回避的挑战。

0.9B跑出90%真机成功率，上海交大为VLA补上空间感

Evo-Depth

0.9B

代码、模型权重及训练脚本均已全面开源。

轻量、可端到端训练

轻量、可端到端训练

1. 隐式深度编码模块（IDEM）

2. 空间增强模块（SEM）

3. 渐进式对齐训练

仿真基准：

真机测试：

部署指标：

性能、成本与实时性的折中艺术

性能、成本与实时性的折中艺术

如何在不显著增加系统整体负担的前提下，有效提升VLA模型的空间感知能力。

性能、成本和实时性

相关阅读

相关下载