0.9B跑出90%真机成功率!上海交大为VLA补上空间感
机器人能“看见”,但未必能“看准”。
当前,大量视觉-语言-动作模型仍然主要依赖二维图像信息。一旦任务涉及到精确的定位、细致的物品摆放,或是需要判断物体间的遮挡关系——这些对空间感知要求高的场景,模型的成功率往往会大打折扣。
为机器人补上空间感,通常有两条技术路线,但各有各的代价。
显式3D路线依赖深度传感器和点云重建,硬件链路长,且对设备标定误差非常敏感;隐式3D路线则尝试直接从RGB图像中学习几何信息,虽然省去了额外硬件,但许多方案依赖于庞大的基础模型,导致训练和推理成本居高不下。
现在,上海交通大学MINT实验室团队提出了一条折中的新路径:Evo-Depth。这个约
0.9B

其表现如何?在仿真测试中,Meta-World任务达成率84.4%,LIBERO任务达成率95.4%;在真实机器人平台上,平均成功率约为90%。部署方面,约需3.2 GB显存,推理频率可达约12.3 Hz。
目前,该项目的代码、模型权重及训练脚本均已全面开源。
轻量、可端到端训练
Evo-Depth的核心设计思路非常清晰:从多视角的RGB图像中提取紧凑的隐式深度表征,再以轻量化的方式将其融入视觉-语言处理通路,最终通过基于流匹配的动作专家模型输出连续、精细的动作指令。

整个系统主要由三个关键模块构成:
1. IDEM:隐式深度编码模块。
2. SEM:空间增强模块。
3. 渐进式对齐训练。
在总参数约0.9B的配置下,论文报告的主要结果如下:
- Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。
仿真性能:
- 平均成功率约90%。
真机性能:
- 约需3.2 GB GPU显存,推理频率约12.3 Hz。
部署开销:
值得注意的是,除了关注基准测试分数,论文也明确给出了部署侧的实际开销与实时性指标。对于最终需要运行在真实机器人控制回路中的VLA系统而言,这些信息往往与性能指标同等重要。
性能、成本与实时性的平衡术
归根结底,Evo-Depth试图解决的是一个经典的工程权衡问题:如何在不显著增加系统整体复杂度与资源消耗的前提下,有效提升视觉-语言-动作模型的空间理解与操作能力。
从结果来看,它似乎找到了一种平衡——相比纯二维的VLA模型,它补充了关键的空间信息;而相比那些更“重”的3D方案,它又较好地保留了部署的效率和实用性。
对于正在深耕机器人操作、空间智能或VLA系统研发的团队而言,这类在性能、成本和实时性之间寻求精妙折中的技术方案,其重要性正日益凸显。