Qwen-AgentWorld - 通义千问推出的原生语言世界模型
来源:互联网
时间:2026-06-25 14:12:26
Qwen-AgentWorld是什么
通义千问团队最近搞了个大动作——推出了首个语言世界模型,名叫Qwen-AgentWorld。它的核心能力,是通过长思维链推理,模拟出MCP、搜索、终端、软件工程、Android、Web、操作系统这7大智能体环境。说白了,就是让模型学会"脑补"环境变化。它基于超过1000万条真实交互轨迹,经历了持续预训练、监督微调、强化学习三阶段训练而成。同时,团队还配套发布了AgentWorldBench评测基准,用来验证模型在环境模拟和智能体训练上的真实水平。
Qwen-AgentWorld的主要功能
- :覆盖MCP工具调用、搜索引擎、Linux终端、软件工程、Android GUI、Web浏览器、操作系统等7种截然不同的交互环境,而且都用统一的文本格式来描述状态转移。
七域统一环境模拟
- :它接收当前状态和智能体的动作后,会通过长思维链推理,精确预测出环境下一步会给出什么反馈,比如下一屏的UI长什么样、终端会输出什么、或者报错信息是什么。
长思维链状态预测
- :支持注入特定的模拟指令,比如"隐藏部分搜索结果"或者"模拟磁盘满了的报错",这样就能系统性地生成真实环境中极为罕见的边缘案例。
可控对抗模拟
- :它可以作为一个独立的环境模拟器,支撑Sim Agentic RL方案,在超过4000个真实OpenClaw环境中实现可扩展的回合级训练。
智能体强化学习训练
- :世界模型的训练过程,本身就能当作智能体训练的"热身"。这种能力内化成了类似"反思"的前向思考模式,能有效提升下游任务的表现。
统一智能体基础模型
Qwen-AgentWorld的技术原理
- :把7个异构环境的状态表示,全部统一为
统一轨迹模式
(system_prompt, action, observation)这个序列格式。其中的system_prompt又包含了任务描述、动作空间、初始状态、演示示例和模拟指令五个部分。 - :
三阶段训练管线
- :注入状态转移动力学和增强领域的专业语料,让模型建立起通用的世界建模能力。
持续预训练
- :激活"下一状态预测"的推理思维链模式。
监督微调
- :采用混合评分标准奖励和规则奖励,精细打磨模拟的保真度。
强化学习
- :针对那些可验证的确定性能力,比如终端命令执行、文件系统变化,设计了规则验证器;而对于开放域的模拟质量,则采用五维评分标准来评判。
混合奖励框架
- :在纯文本领域,直接预测文本输出;在GUI领域,则用可访问性树和UI视图层级结构来表示状态,而不是处理原始像素。
环境表示策略
如何使用Qwen-AgentWorld
- :部署模型来替代真实环境,通过API接收
作为环境模拟器
(state, action),然后返回next_state。这样一来,就能在不依赖沙箱或虚拟机的情况下,进行大规模回合级的强化学习训练。 - :直接把Qwen-AgentWorld当作智能体的骨干模型来用。它内置的世界建模能力能辅助动作选择,在Terminal-Bench、SWE-Bench、Claw-Eval这些基准上都能开箱即用。
作为智能体基础模型
- :可以从HuggingFace或ModelScope上下载权重,比如
模型获取
Qwen-AgentWorld-35B-A3B这个版本。
Qwen-AgentWorld的核心优势
- :从持续预训练阶段起,就把环境建模作为显式目标进行端到端训练,而不是事后对通用大语言模型做些适配。
首个原生多域语言世界模型
- :在AgentWorldBench上,397B-A17B版本拿下了58.8分,超越了Claude Opus 4.8的56.6分、GPT-5.4的58.2分、Gemini 3.1 Pro的54.6分、DeepSeek-V4-Pro的53.0分以及Qwen3.6-Plus的50.8分。
显著超越前沿基线
- :不需要真实的基础设施,就能以回合级规模扩展环境。还能精确生成扰动,制造对抗样本。而且,在可控模拟下进行的强化学习,效果明显优于只在真实环境中训练的RL。
可扩展且可控
- :世界模型训练作为智能体训练的"预热",可以迁移到7个基准上,其中3个基准甚至完全没有出现在训练集里。哪怕不做智能体任务的强化学习微调,也展现出了强大的泛化能力。
跨域泛化与预热迁移
- :在GUI领域,用无障碍树、HTML或UI层级标记来表示状态,也就是说,纯文本的世界建模就足以涵盖视觉交互环境。
纯文本覆盖视觉环境
Qwen-AgentWorld的项目地址
- :https://qwen.ai/blog?id=qwen-agentworld
项目官网
- :https://github.com/QwenLM/Qwen-AgentWorld
GitHub仓库
- :https://huggingface.co/collections/Qwen/qwen-agentworld
HuggingFace模型库
- :https://arxiv.org/pdf/2606.24597
arXiv技术论文
Qwen-AgentWorld的同类竞品对比
定位
环境覆盖
状态表示
训练方式
模型规模
上下文窗口
模拟深度
动作空间
评测基准
核心优势
Qwen-AgentWorld的应用场景
- :为AI Agent提供一个低成本、可扩展、可控制的虚拟训练场,替代昂贵的沙箱和真实API调用。
智能体训练基础设施
- :生成真实环境中罕见的错误状态,比如网络超时、权限拒绝、资源不足,用来测试智能体的鲁棒性。
边缘案例与对抗测试
- :模拟代码执行、测试反馈、Git操作的结果,帮助开发者预先演练操作可能带来的后果。
软件工程辅助
- :模拟Android、Web、桌面应用的交互,预测点击或输入后的页面状态变化,用于自动化测试脚本的生成。
自动化UI测试
- :模拟MCP服务器的响应和多工具链的编排,帮助开发者调试复杂的调用逻辑,而不用真的部署一套服务。
工具调用与MCP生态