Qwen-VLA - 阿里通义推出的通用视觉-语言-动作模型
来源:互联网
时间:2026-06-02 12:39:19
通义实验室最近推出的Qwen-VLA,给具身智能领域带来了一个很有意思的方向——把视觉、语言和动作真正统一到一个模型里。要知道,市面上通用的视觉语言模型和机器人用的控制模型,之前基本是各干各的,换一个机器人平台就要重新训练,甚至换个任务都得另起炉灶。Qwen-VLA的野心不小:它不仅想当“通用大脑”,还想做到即插即用,零样本泛化。
具体来说,它以Qwen3.5-4B作为视觉语言主干,再搭配一个1.15B参数的DiT动作解码器。这个组合的最大亮点是,它用一个统一的动作轨迹预测框架,把操作、导航、轨迹预测这三类核心任务整合到了同一个模型中。更厉害的是,它采用了一种“本体感知提示条件化”的思路——你只需要修改一段文本描述,就能让模型适配11种不同的机器人平台,从WidowX到Franka Panda,从Mobile ALOHA到Galaxea R1,覆盖单臂、双臂、移动底座等完全不同的硬件配置。
模型在多个基准测试中的表现也相当抢眼,能直接超越不少专用模型。零样本动态操作成功率达到了26.6%,这意味着它无需专门针对动态场景训练,就能处理运动中的物体。可以说,Qwen-VLA正试图推动具身智能从“技能专家”走向“通用行动者”。
Qwen-VLA的主要功能
功能层面,Qwen-VLA做了几件关键的事:
- :一个模型搞定操作、导航、轨迹预测三大任务。过去这是三个不同的模型各管一摊,现在被整合到一个框架里。
跨任务统一控制
- :WidowX、Franka Panda、Mobile ALOHA、Galaxea R1等11种机器人平台,只要改一段文本提示,模型就能自动切换到对应的硬件配置。
跨本体即插即用
- :面对从未见过的颜色、实例、位置、背景、指令,模型依然能保持高成功率,不需要为每个新环境重新训练。
零样本开放世界泛化
- :更让人惊讶的是,它不需要任何动态训练数据,就能零样本操作正在运动的物体。在DOMINO基准上26.6%的成功率,已经超越了那些专门为动态场景微调的模型。
动态物体操作
- :它引入了一个任务自适应的token分配机制,能为长指令保留更丰富的历史信息。在VLN-CE基准上,R2R达到57.5%,RxR达到59.6%,直接超越了专用的导航模型。
长时程导航
Qwen-VLA的技术原理
那么,Qwen-VLA是怎么做到这些的?技术层面有几个核心设计。
统一动作轨迹预测框架。
本体感知提示条件化。
文本到动作DiT预训练(T2A)。
如何使用Qwen-VLA
使用方面,流程也比较清晰:
- :从GitHub克隆官方仓库,安装依赖,下载预训练权重。这些常规操作不再赘述。
环境准备
- :根据实际机器人的硬件配置生成本体提示,将图像、指令和提示一起输入模型。模型输出的动作序列直接发送给机器人执行,循环迭代实现闭环控制。
模型推理
- :如果需要自己训练或微调,可以按T2A → CPT → SFT → RL四阶段流程逐步进行,逐步提升动作生成、视觉感知、任务适配和闭环优化的能力。
模型训练(进阶)
- :切换机器人时,只需要修改提示中的硬件描述字段。如果适配新本体,采集数据后在SFT阶段微调即可,流程非常简洁。
跨平台部署
Qwen-VLA的核心优势
总结来看,Qwen-VLA的核心优势集中在几个方面:
- :在5个仿真基准中,有3个表现超过了最佳的专用模型。通用模型打败专用模型,这才是真正的突破。
通用性超越专用性
- :只改一段文本提示就能搞定,不需要为每种机器人重新训练模型,这在实际部署中非常实用。
轻量跨本体适配
- :T2A阶段的计算成本仅为多模态训练的十分之一,同时避免了干扰VLM已有的预训练成果,效率极高。
高效预训练策略
- :真实世界平均OOD成功率76.9%,比π₀.₅高出35.4个百分点,比无预训练的变体高出40.7个百分点。这个差距相当显著。
强OOD泛化能力
- :DOMINO基准上零样本26.6%,超过了专为动态场景微调的PUMA(17.2%)。
动态场景零样本突破
Qwen-VLA的项目地址
- :https://qwen.ai/blog?id=qwenvla
项目官网
- :https://github.com/QwenLM/Qwen-VLA
GitHub仓库
- :https://arxiv.org/pdf/2605.30280
arXiv技术论文
Qwen-VLA的同类竞品对比
如果放在当前具身智能模型的环境中做对比,Qwen-VLA与π₀.₅(Physical Intelligence)的差异非常明显:
| 维度 | Qwen-VLA | π₀.₅ (Physical Intelligence) |
|---|---|---|
架构底座 |
Qwen3.5-4B VLM + 1.15B DiT 解码器 | 基于流匹配的 VLA 架构 |
任务统一性 |
操作+导航+轨迹预测三任务统一 | 专注操作任务 |
跨本体方式 |
文本提示条件化,无需改架构 | 需针对不同本体微调或适配 |
支持平台数 |
11 种(WidowX、ALOHA、Franka 等) | 主要支持少量主流平台 |
预训练策略 |
T2A 无视觉预训练(计算成本 1/10) | 端到端多模态联合训练 |
动态操作 |
零样本 26.6%(DOMINO) | 零样本 7.5% |
OOD 泛化 |
真实世界平均 76.9% | 41.5% |
导航能力 |
VLN-CE R2R 57.5%,超越专用导航模型 | 不支持 |
开源程度 |
论文+代码+权重全开源 | 部分开源 |
训练效率 |
T2A 阶段计算成本为多模态 1/10 | 标准多模态训练成本 |
Qwen-VLA的应用场景
这不仅仅是技术层面的探索,它对应着非常具体的落地场景:
- :同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,不需要为每个任务单独部署模型。这意味着现场维护和升级的工作量大幅下降。
多任务工业机器人
- :一台家用机器人在厨房执行操作、在客厅自主导航、在走廊规划轨迹——任务类型无缝切换,背后靠的就是这个统一模型。
服务机器人跨场景部署
- :研究人员可以在不同硬件平台上快速验证算法。换一个机器人,改一段文本提示就行,不用为每个平台重新训练模型。这大大降低了科研门槛。
科研教育平台
- :物流仓储中抓取传送带上的运动包裹,不需要专门针对动态场景重新采集训练数据。零样本即可应对动态物体。
动态环境操作
- :博物馆导览机器人执行“先去A展厅拍照,绕过人群去B展厅”这类多步骤长指令,Qwen-VLA的长时程导航能力正好派上用场。
长时程复杂指令跟随