0.9B跑出90%真机成功率！上海交大为VLA补上空间感

来源：互联网时间：2026-05-26 18:36:17

机器人能“看见”，但未必能“看准”。

当前，大量视觉-语言-动作模型仍然主要依赖二维图像信息。一旦任务涉及到精确的定位、细致的物品摆放，或是需要判断物体间的遮挡关系——这些对空间感知要求高的场景，模型的成功率往往会大打折扣。

为机器人补上空间感，通常有两条技术路线，但各有各的代价。

显式3D路线依赖深度传感器和点云重建，硬件链路长，且对设备标定误差非常敏感；隐式3D路线则尝试直接从RGB图像中学习几何信息，虽然省去了额外硬件，但许多方案依赖于庞大的基础模型，导致训练和推理成本居高不下。

现在，上海交通大学MINT实验室团队提出了一条折中的新路径：Evo-Depth。这个约

0.9B

参数的模型，不增加硬件负担，而是通过一种紧凑的隐式深度编码方法，将空间感知能力“写入”VLA模型的决策策略中，旨在同时兼顾仿真环境下的性能与真实机器人上的部署效率。

0.9B跑出90%真机成功率！上海交大为VLA补上空间感

其表现如何？在仿真测试中，Meta-World任务达成率84.4%，LIBERO任务达成率95.4%；在真实机器人平台上，平均成功率约为90%。部署方面，约需3.2 GB显存，推理频率可达约12.3 Hz。

目前，该项目的代码、模型权重及训练脚本均已全面开源。

Evo-Depth的核心设计思路非常清晰：从多视角的RGB图像中提取紧凑的隐式深度表征，再以轻量化的方式将其融入视觉-语言处理通路，最终通过基于流匹配的动作专家模型输出连续、精细的动作指令。

0.9B跑出90%真机成功率！上海交大为VLA补上空间感

整个系统主要由三个关键模块构成：

该模块负责从多视角图像中提取隐式的深度特征，其重点是捕捉空间布局和相对几何关系，而非生成计算成本高昂的显式3D中间表示。论文中，IDEM骨干网络参数约0.13B，并采用了多视角深度预训练进行初始化，从而在轻量化前提下引入了与深度相关的先验知识。

这个模块的作用，是将隐式深度特征作为一种调制信号，用来增强视觉-语言联合表征。与直接增加一个独立的深度处理分支相比，这种融合方式更为克制：原有的视觉语言模型继续专注于语义理解，而深度特征则主要负责提供空间信息增强，同时尽力控制由此带来的延迟和显存开销。

多模块联合训练常面临优化不稳定的挑战。为此，研究团队采用了渐进式对齐训练策略，通过分阶段的方式逐步完成：深度表征对齐、多模态融合，以及最终的动作学习。动作生成部分则采用了当前VLA领域中较为流行的流匹配技术。

在总参数约0.9B的配置下，论文报告的主要结果如下：

值得注意的是，除了关注基准测试分数，论文也明确给出了部署侧的实际开销与实时性指标。对于最终需要运行在真实机器人控制回路中的VLA系统而言，这些信息往往与性能指标同等重要。

归根结底，Evo-Depth试图解决的是一个经典的工程权衡问题：如何在不显著增加系统整体复杂度与资源消耗的前提下，有效提升视觉-语言-动作模型的空间理解与操作能力。

从结果来看，它似乎找到了一种平衡——相比纯二维的VLA模型，它补充了关键的空间信息；而相比那些更“重”的3D方案，它又较好地保留了部署的效率和实用性。

对于正在深耕机器人操作、空间智能或VLA系统研发的团队而言，这类在性能、成本和实时性之间寻求精妙折中的技术方案，其重要性正日益凸显。