首页 > 教程攻略 > ai资讯 >Qwen-VLA - 阿里通义推出的通用视觉-语言-动作模型

Qwen-VLA - 阿里通义推出的通用视觉-语言-动作模型

来源：互联网时间：2026-06-02 12:39:19

通义实验室最近推出的Qwen-VLA，给具身智能领域带来了一个很有意思的方向——把视觉、语言和动作真正统一到一个模型里。要知道，市面上通用的视觉语言模型和机器人用的控制模型，之前基本是各干各的，换一个机器人平台就要重新训练，甚至换个任务都得另起炉灶。Qwen-VLA的野心不小：它不仅想当“通用大脑”，还想做到即插即用，零样本泛化。

具体来说，它以Qwen3.5-4B作为视觉语言主干，再搭配一个1.15B参数的DiT动作解码器。这个组合的最大亮点是，它用一个统一的动作轨迹预测框架，把操作、导航、轨迹预测这三类核心任务整合到了同一个模型中。更厉害的是，它采用了一种“本体感知提示条件化”的思路——你只需要修改一段文本描述，就能让模型适配11种不同的机器人平台，从WidowX到Franka Panda，从Mobile ALOHA到Galaxea R1，覆盖单臂、双臂、移动底座等完全不同的硬件配置。

模型在多个基准测试中的表现也相当抢眼，能直接超越不少专用模型。零样本动态操作成功率达到了26.6%，这意味着它无需专门针对动态场景训练，就能处理运动中的物体。可以说，Qwen-VLA正试图推动具身智能从“技能专家”走向“通用行动者”。

Qwen-VLA的主要功能

功能层面，Qwen-VLA做了几件关键的事：

跨任务统一控制
：一个模型搞定操作、导航、轨迹预测三大任务。过去这是三个不同的模型各管一摊，现在被整合到一个框架里。
跨本体即插即用
：WidowX、Franka Panda、Mobile ALOHA、Galaxea R1等11种机器人平台，只要改一段文本提示，模型就能自动切换到对应的硬件配置。
零样本开放世界泛化
：面对从未见过的颜色、实例、位置、背景、指令，模型依然能保持高成功率，不需要为每个新环境重新训练。
动态物体操作
：更让人惊讶的是，它不需要任何动态训练数据，就能零样本操作正在运动的物体。在DOMINO基准上26.6%的成功率，已经超越了那些专门为动态场景微调的模型。
长时程导航
：它引入了一个任务自适应的token分配机制，能为长指令保留更丰富的历史信息。在VLN-CE基准上，R2R达到57.5%，RxR达到59.6%，直接超越了专用的导航模型。

Qwen-VLA的技术原理

那么，Qwen-VLA是怎么做到这些的？技术层面有几个核心设计。

统一动作轨迹预测框架。

传统的做法是把操作、导航、轨迹预测拆成独立的模型，结果是跨任务迁移非常困难。但Qwen-VLA的研究者发现，这三个任务的计算结构本质上是同构的——都是“观察场景 + 理解指令 → 预测未来动作序列”。既然如此，为什么不用一个模型来干？于是他们用Qwen3.5-4B作为视觉语言主干，搭配1.15B的DiT动作解码器，不同任务的数据在同一训练过程中共同监督，视觉定位和空间推理能力也因此实现了跨任务迁移。

本体感知提示条件化。

机器人硬件差异是个老难题。传统的做法是每种本体定制一个独立分支，成本高且维护麻烦。Qwen-VLA想了个巧妙的办法：把硬件差异编码成结构化的文本提示，作为唯一的外部接口。提示里包含机器人型号、臂数、关节配置、控制频率等信息，直接交给视觉语言模型处理。骨干网络的隐藏状态与噪声动作块拼接后，一起送入DiT解码器。推理的时候，只需要替换提示文本，就能切换到不同平台，架构本身完全不用动。

文本到动作DiT预训练（T2A）。

训练过程中有个现实问题：视觉语言模型已经预训练好了，但DiT解码器是从零初始化的。硬碰硬地一起训练，不仅效果差，还容易干扰已有的VLM成果。解决方案分两步走：先冻结VLM，单独训练DiT，而且不提供图像，只输入文本。这么做的目的是让DiT先学会动作分布、文本与动作的对齐、以及本体条件化。这个阶段的计算代价，仅仅是多模态训练的十分之一。消融实验也验证了这一点：20%合成数据加80%真实数据的组合效果最好，达到71.1%的成功率；而且没有图像反而优于有图像，2000步就能达到峰值。

如何使用Qwen-VLA

使用方面，流程也比较清晰：

环境准备
：从GitHub克隆官方仓库，安装依赖，下载预训练权重。这些常规操作不再赘述。
模型推理
：根据实际机器人的硬件配置生成本体提示，将图像、指令和提示一起输入模型。模型输出的动作序列直接发送给机器人执行，循环迭代实现闭环控制。
模型训练（进阶）
：如果需要自己训练或微调，可以按T2A → CPT → SFT → RL四阶段流程逐步进行，逐步提升动作生成、视觉感知、任务适配和闭环优化的能力。
跨平台部署
：切换机器人时，只需要修改提示中的硬件描述字段。如果适配新本体，采集数据后在SFT阶段微调即可，流程非常简洁。

Qwen-VLA的核心优势

总结来看，Qwen-VLA的核心优势集中在几个方面：

通用性超越专用性
：在5个仿真基准中，有3个表现超过了最佳的专用模型。通用模型打败专用模型，这才是真正的突破。
轻量跨本体适配
：只改一段文本提示就能搞定，不需要为每种机器人重新训练模型，这在实际部署中非常实用。
高效预训练策略
：T2A阶段的计算成本仅为多模态训练的十分之一，同时避免了干扰VLM已有的预训练成果，效率极高。
强OOD泛化能力
：真实世界平均OOD成功率76.9%，比π₀.₅高出35.4个百分点，比无预训练的变体高出40.7个百分点。这个差距相当显著。
动态场景零样本突破
：DOMINO基准上零样本26.6%，超过了专为动态场景微调的PUMA（17.2%）。

Qwen-VLA的项目地址

项目官网
：https://qwen.ai/blog?id=qwenvla
GitHub仓库
：https://github.com/QwenLM/Qwen-VLA
arXiv技术论文
：https://arxiv.org/pdf/2605.30280

Qwen-VLA的同类竞品对比

如果放在当前具身智能模型的环境中做对比，Qwen-VLA与π₀.₅（Physical Intelligence）的差异非常明显：

维度	Qwen-VLA	π₀.₅ (Physical Intelligence)
架构底座	Qwen3.5-4B VLM + 1.15B DiT 解码器	基于流匹配的 VLA 架构
任务统一性	操作+导航+轨迹预测三任务统一	专注操作任务
跨本体方式	文本提示条件化，无需改架构	需针对不同本体微调或适配
支持平台数	11 种（WidowX、ALOHA、Franka 等）	主要支持少量主流平台
预训练策略	T2A 无视觉预训练（计算成本 1/10）	端到端多模态联合训练
动态操作	零样本 26.6%（DOMINO）	零样本 7.5%
OOD 泛化	真实世界平均 76.9%	41.5%
导航能力	VLN-CE R2R 57.5%，超越专用导航模型	不支持
开源程度	论文+代码+权重全开源	部分开源
训练效率	T2A 阶段计算成本为多模态 1/10	标准多模态训练成本

Qwen-VLA的应用场景

这不仅仅是技术层面的探索，它对应着非常具体的落地场景：

多任务工业机器人
：同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务，不需要为每个任务单独部署模型。这意味着现场维护和升级的工作量大幅下降。
服务机器人跨场景部署
：一台家用机器人在厨房执行操作、在客厅自主导航、在走廊规划轨迹——任务类型无缝切换，背后靠的就是这个统一模型。
科研教育平台
：研究人员可以在不同硬件平台上快速验证算法。换一个机器人，改一段文本提示就行，不用为每个平台重新训练模型。这大大降低了科研门槛。
动态环境操作
：物流仓储中抓取传送带上的运动包裹，不需要专门针对动态场景重新采集训练数据。零样本即可应对动态物体。
长时程复杂指令跟随
：博物馆导览机器人执行“先去A展厅拍照，绕过人群去B展厅”这类多步骤长指令，Qwen-VLA的长时程导航能力正好派上用场。

Qwen-VLA - 阿里通义推出的通用视觉-语言-动作模型

Qwen-VLA的主要功能

跨任务统一控制

跨本体即插即用

零样本开放世界泛化

动态物体操作

长时程导航

Qwen-VLA的技术原理

统一动作轨迹预测框架。

本体感知提示条件化。

文本到动作DiT预训练（T2A）。

如何使用Qwen-VLA

环境准备

模型推理

模型训练（进阶）

跨平台部署

Qwen-VLA的核心优势

通用性超越专用性

轻量跨本体适配

高效预训练策略

强OOD泛化能力

动态场景零样本突破

Qwen-VLA的项目地址

项目官网

GitHub仓库

arXiv技术论文

Qwen-VLA的同类竞品对比

架构底座

任务统一性

跨本体方式

支持平台数

预训练策略

动态操作

OOD 泛化

导航能力

开源程度

训练效率

Qwen-VLA的应用场景

多任务工业机器人

服务机器人跨场景部署

科研教育平台

动态环境操作

长时程复杂指令跟随

相关阅读

相关下载