首页 > 教程攻略 > ai资讯 >三连发!阿里发布首个具身大模型Qwen-Robot系列

三连发!阿里发布首个具身大模型Qwen-Robot系列

来源:互联网 时间:2026-06-16 12:45:07

6月16日,阿里巴巴正式放出了千问具身智能大模型Qwen-Robot系列,一口气端出三款模型:VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNa v,以及世界模型Qwen-RobotWorld。这是千问大模型家族里第一个完整的具身智能模型系列——三个模型各司其职,相当于给机器人装上了灵巧的手、认路的脚和会思考的大脑。它们可以单独干活,也能协同配合,让各种形态的机器人真正走向现实有了一个靠谱的“通用底座”。

三连发!阿里发布首个具身大模型Qwen-Robot系列

大语言模型折腾的是数字世界里的对话和内容生成,而具身智能要把这套本事延伸进真实的物理世界。眼下全球具身智能行业正卡在从“实验室研发”跨向“真实场景商业化”的关口上——能不能在陌生的环境里听懂指令、稳定执行,才是真正的拦路虎。Qwen-Robot的解法是:通过三类关键的大模型设计和训练,让模型更擅长理解人类自然语言、感知三维环境、摸清物理规律,从而指挥机器人在真实世界中自主完成复杂操作和精准移动,甚至能搞定那些从未见过的任务。

VLA模型(视觉-语言-动作)是目前具身智能领域最核心的基础模型之一,它把视觉感知、语言理解和动作决策揉在一起,让机器人既看得懂又能动手。传统VLA模型最让人头疼的问题是迁移能力太弱——换一个机器人、换一个场景,性能就往下掉。要让不同形态的机器人都能听同一个模型的指挥,得解决两个核心问题:动作统一和空间统一。Qwen-RobotManip就是从这两个点下手的。首先,它用一套80维的统一动作表征,给不同硬件定义了一套通用的“肢体语言”,让机器人学会基础的物理规律和动作逻辑,动作不再是生硬的模仿。其次,它不再依赖繁琐的绝对坐标计算,而是直接基于摄像头画面里的相对位置来操作,面对环境变化时反应更快、定位更准。搭载到不同的硬件上,Qwen-RobotManip只需要几步反馈就能自动适配,性能稳定高效——好比一个老司机坐进陌生的车,试几脚油门就能摸清脾性,直接上路。

图说:搭载Qwen-RobotNa v的机器狗顺利完成寻物导航

会动手、能跑腿,机器人要想做得准还得想得深,就像体操运动员一样需要在“脑海”里反复演练动作。这件事靠的就是具身智能领域的世界模型。Qwen-RobotWorld是千问在这个方向上的最新尝试——它基于对物理规律的理解,能推理并模拟出下一个时间点机器人该做什么动作、处于什么状态,让机器人在现实世界中能按图索骥地行动。实际应用里,Qwen-RobotWorld不仅能生成视频数据来训练模型,大幅缓解训练数据不足的难题,还能在执行动作前帮助机器人推演未来的动作轨迹,让操作更精准、更到位。

图说:Qwen-Robot系列模型在具身智能评测中夺得多项SOTA

从行业视角来看,Qwen-Robot系列是千问大模型家族从数字智能体迈向物理智能体的关键一步。不管是单独部署还是整体协同,在统一的自然语言指令下,Qwen-Robot都能展现出一致的高性能。这意味着,一个能够去很多地方、做很多事情、并预判后果的物理智能体正在成为现实。未来,这套“通用大脑”将被搭载到更多形态的机器人身上,让它们在复杂的现实环境中具备高度自主的感知、决策与长程执行能力。

相关下载