首页 > 教程攻略 > ai资讯 >三连发！阿里发布首个具身大模型Qwen-Robot系列

三连发！阿里发布首个具身大模型Qwen-Robot系列

来源：互联网时间：2026-06-16 12:45:07

6月16日，阿里巴巴正式放出了千问具身智能大模型Qwen-Robot系列，一口气端出三款模型：VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNa v，以及世界模型Qwen-RobotWorld。这是千问大模型家族里第一个完整的具身智能模型系列——三个模型各司其职，相当于给机器人装上了灵巧的手、认路的脚和会思考的大脑。它们可以单独干活，也能协同配合，让各种形态的机器人真正走向现实有了一个靠谱的“通用底座”。

大语言模型折腾的是数字世界里的对话和内容生成，而具身智能要把这套本事延伸进真实的物理世界。眼下全球具身智能行业正卡在从“实验室研发”跨向“真实场景商业化”的关口上——能不能在陌生的环境里听懂指令、稳定执行，才是真正的拦路虎。Qwen-Robot的解法是：通过三类关键的大模型设计和训练，让模型更擅长理解人类自然语言、感知三维环境、摸清物理规律，从而指挥机器人在真实世界中自主完成复杂操作和精准移动，甚至能搞定那些从未见过的任务。

VLA模型（视觉-语言-动作）是目前具身智能领域最核心的基础模型之一，它把视觉感知、语言理解和动作决策揉在一起，让机器人既看得懂又能动手。传统VLA模型最让人头疼的问题是迁移能力太弱——换一个机器人、换一个场景，性能就往下掉。要让不同形态的机器人都能听同一个模型的指挥，得解决两个核心问题：动作统一和空间统一。Qwen-RobotManip就是从这两个点下手的。首先，它用一套80维的统一动作表征，给不同硬件定义了一套通用的“肢体语言”，让机器人学会基础的物理规律和动作逻辑，动作不再是生硬的模仿。其次，它不再依赖繁琐的绝对坐标计算，而是直接基于摄像头画面里的相对位置来操作，面对环境变化时反应更快、定位更准。搭载到不同的硬件上，Qwen-RobotManip只需要几步反馈就能自动适配，性能稳定高效——好比一个老司机坐进陌生的车，试几脚油门就能摸清脾性，直接上路。

图说：搭载Qwen-RobotNa v的机器狗顺利完成寻物导航

会动手、能跑腿，机器人要想做得准还得想得深，就像体操运动员一样需要在“脑海”里反复演练动作。这件事靠的就是具身智能领域的世界模型。Qwen-RobotWorld是千问在这个方向上的最新尝试——它基于对物理规律的理解，能推理并模拟出下一个时间点机器人该做什么动作、处于什么状态，让机器人在现实世界中能按图索骥地行动。实际应用里，Qwen-RobotWorld不仅能生成视频数据来训练模型，大幅缓解训练数据不足的难题，还能在执行动作前帮助机器人推演未来的动作轨迹，让操作更精准、更到位。

图说：Qwen-Robot系列模型在具身智能评测中夺得多项SOTA

从行业视角来看，Qwen-Robot系列是千问大模型家族从数字智能体迈向物理智能体的关键一步。不管是单独部署还是整体协同，在统一的自然语言指令下，Qwen-Robot都能展现出一致的高性能。这意味着，一个能够去很多地方、做很多事情、并预判后果的物理智能体正在成为现实。未来，这套“通用大脑”将被搭载到更多形态的机器人身上，让它们在复杂的现实环境中具备高度自主的感知、决策与长程执行能力。

三连发！阿里发布首个具身大模型Qwen-Robot系列

相关阅读

相关下载