阿里杀入具身智能

来源：互联网时间：2026-06-18 07:55:22

大模型战争，正在从对话框打到现实世界。

阿里杀入具身智能

6月16日，阿里巴巴正式发布了千问具身智能大模型——Qwen-Robot系列。和过去那些擅长聊天、写代码、看图片的模型不同，这一次，阿里的目标是让AI学会操控机器人，直接进入真实世界干活。

01 Qwen-Robot是什么？

这次发布的Qwen-Robot并不是一个单一的模型，而是一套组合拳，由三个核心模块构成：

丨Qwen-RobotManip：负责操作，相当于机器人的“手”。

这是一个视觉-语言-动作模型（VLA）。简单说，机器人不仅要“看见”杯子、“听懂”拿起来的指令，还得能生成一连串连贯的动作。难点在于适配不同的机器人硬件——机械臂、双臂机器人、人形机器人，它们的身体结构千差万别。Qwen-RobotManip的亮点之一是采用了80维统一动作表征，相当于为不同硬件定义了一套通用的“肢体语言”；它基于摄像头画面中的相对位置进行操作，不再过度依赖繁琐的绝对坐标计算。在数据层面，这个模型基于完全由开源数据构建的、超过38000小时的语料库完成预训练，并在RoboChallenge Table30 v1真机测评中包揽了前两名。

丨Qwen-RobotNa v：负责导航，相当于机器人的“脚”。

这是一个视觉语言导航模型（VLN）。它的任务是让机器人听懂自然语言，并在真实的物理空间里移动。比如“去厨房门口”、“绕过桌子”、“找一下我的行李箱”——机器人得一边看环境，一边记住走过的路，一边规划下一步的路线。它的亮点在于，把语言指令导航、目标搜索、自动驾驶等五大任务族统一到了同一个框架里。过去这些任务往往分开做，现在它试图用一套模型搞定多种移动智能体的任务。此外，它还提出了任务自适应观察机制，可以根据任务灵活切换记忆策略。它也是业内少数原生支持多种智能体框架的VLN模型，并已在宇树Go2四足机器人上实现了零样本真实环境部署。

丨Qwen-RobotWorld：负责思考，相当于机器人的“大脑”。

这是一个世界模型。所谓世界模型，不止是识别物体，而是要推演物理世界接下来会发生什么——比如杯子被推到桌边会不会掉，抽屉拉开后里面的东西会怎么移动，机器人下一步动作是否合理。它的特别之处在于，用自然语言作为统一的动作接口，把机器人操作、自动驾驶、室内导航等多类场景打通。训练上，它拥有860万条视频和文本对、超过2亿帧画面，并且采用了30%通用视频数据加70%具身专属数据的混合训练策略。

所以，Qwen-Robot系列模型，本质上是把操作、导航、世界推演这三项能力打包成一套机器人的“通用能力栈”。

02 阿里为何下场？

毫无疑问，具身智能已经成为中国AI圈最炙手可热的赛道之一。2026年一季度，国内具身智能赛道披露的融资超过50起，获投企业超过30家，累计融资额约200亿元。宇树科技、智元机器人、银河通用、星海图、自变量机器人、智平方、千寻智能、云深处等公司，纷纷跻身百亿估值俱乐部。具身智能，正在变成资本、产业和大厂共同押注的新战场。

乍一看，阿里这次发布Qwen-Robot，不过是在追机器人的风口。但更深层的原因在于，大模型竞争的方向正在悄然改变。过去两年，大模型竞争主要发生在数字世界里——聊天、写作、代码、搜索、办公、Agent，本质上都是AI在屏幕里完成任务。但具身智能不同，它要求AI控制机器人，在物理世界中完成真实任务。比如让机器人进入仓库、工厂、商超、家庭、物流场景，执行搬运、分拣、巡检、配送、服务等任务。

如果未来机器人都需要一个通用的大脑，那么这个大脑就很可能成为新的云服务、新的模型底座，甚至新的产业入口。这正是阿里必须下场的原因——它不一定要亲自造机器人，但它绝不能错过机器人最核心的智能层。具身智能，是大模型走向产业和物理世界的重要下一站。

在这一领域，阿里其实早有积累。2025年8月，阿里达摩院开源过RynnVLA、RynnEC、RynnRCP等模型和协议，分别对应动作生成、世界理解，以及机器人本体、传感器、模型服务和动作执行之间的连接。之后，千问团队又推出了Qwen-VLA，把Qwen的视觉语言能力扩展到动作生成和轨迹预测。这次Qwen-Robot的发布，相当于把具身智能能力正式放进了千问主品牌，变成了机器人行业听得懂、用得上的三类模块。这意味着，具身智能不再只是阿里实验室里的研究方向，而是正式进入了阿里大模型的主战场。

03 这个“大脑”有什么不一样？

现阶段做具身智能的公司，几乎都在讲“大脑”。智元发布GO-1，强调“一脑多形”和数据回流；自变量发布WALL-B，主打世界统一模型；银河通用推出LDA-1B，讲世界-动作统一框架；星海图发布G0，用“快慢双脑”让机器人完成整理床铺这类长程任务。那么，阿里Qwen-Robot和这些机器人公司的具身智能模型，有什么不同？

最大的区别，在于起点不同。阿里是从大模型往机器人走——它原本就有大语言模型、多模态模型、Agent、视频理解模型和云服务能力，Qwen-Robot更像是在这些基础上，继续向操作、导航、世界模型延伸。而具身智能厂商则是从机器人往大模型走——它们先有本体、机械臂、传感器、运动控制和真实任务，再用机器人每天采集的数据训练自己的VLA、世界模型或具身大脑。

这种起点的差异决定了双方各自的优势。阿里的优势在于模型底座强、生态庞大、平台化能力强。如果Qwen-Robot跑通，它不一定要绑定某一台具体的机器人，而是可以成为很多机器人公司都能调用的通用能力。这有点像机器人行业的安卓，或者是未来云端机器人模型的API。但阿里的短板同样明显：真实机器人不是它的主业。具身智能最终比的不是benchmark，而是真机数据、失败数据、场景闭环。机器人在实验室里抓起杯子，和在仓库、商超、家庭里连续工作一整天，完全是两回事。

而这恰恰是具身智能厂商的强项。智元、自变量、星海图、银河通用这类公司，离真实机器人更近。它们有自己的本体，有数据采集链路，有真机测试环境，也能把失败案例重新回流到训练系统。它们的模型，通常不是为了做一个通用API，而是为了让自己的机器人更快地进工厂、进商超、进家庭，完成具体任务。

所以，阿里和具身智能厂商很可能走出两条迥异的路径。一条是阿里这样的基础模型厂商，做通用底座、云服务和开发者生态；另一条是机器人公司，做本体、数据、场景和端到端闭环。前者赢在规模化和生态，后者赢在真实世界的“脏活累活”。

04 大厂纷纷入局具身智能

Qwen-Robot背后真正值得关注的，不只是阿里一家。大厂们都在从大模型走向具身智能。腾讯有HY-Embodied，字节的Seed团队在做VLA，京东发布了具身智能数据基础设施和具身大模型，小米也在探索机器人本体和端侧模型。再加上美团、阿里、字节、京东频繁投资机器人公司，信号已经非常清晰：大厂不再只是围观具身智能，而是在抢夺未来机器人背后的入口。谁能让更多的机器人调用自己的模型，谁就有机会成为物理世界里的新平台。这也是为什么大厂们要从“投资机器人公司”转向“自研具身模型”。

但热闹归热闹，具身智能离真正的爆发还有很长的路要走。高质量的真机数据、真实环境里的泛化能力、成本、安全、部署和维护等，都是这个产业尚未解决的难题。当国内大厂开始集体争夺具身智能的入口，这未必只是另一场内卷——它也可能意味着，机器人进入真实产业的速度，确实已经开始加快了。

阿里杀入具身智能

01 Qwen-Robot是什么？

丨Qwen-RobotManip：负责操作，相当于机器人的“手”。

丨Qwen-RobotNa v：负责导航，相当于机器人的“脚”。

丨Qwen-RobotWorld：负责思考，相当于机器人的“大脑”。

02 阿里为何下场？

03 这个“大脑”有什么不一样？

04 大厂纷纷入局具身智能

相关阅读

相关下载