首页 > 教程攻略 > ai资讯 >Qwen-AgentWorld - 通义千问推出的原生语言世界模型

Qwen-AgentWorld - 通义千问推出的原生语言世界模型

来源：互联网时间：2026-06-25 14:12:26

Qwen-AgentWorld是什么

通义千问团队最近搞了个大动作——推出了首个语言世界模型，名叫Qwen-AgentWorld。它的核心能力，是通过长思维链推理，模拟出MCP、搜索、终端、软件工程、Android、Web、操作系统这7大智能体环境。说白了，就是让模型学会"脑补"环境变化。它基于超过1000万条真实交互轨迹，经历了持续预训练、监督微调、强化学习三阶段训练而成。同时，团队还配套发布了AgentWorldBench评测基准，用来验证模型在环境模拟和智能体训练上的真实水平。

Qwen-AgentWorld的主要功能

七域统一环境模拟
：覆盖MCP工具调用、搜索引擎、Linux终端、软件工程、Android GUI、Web浏览器、操作系统等7种截然不同的交互环境，而且都用统一的文本格式来描述状态转移。
长思维链状态预测
：它接收当前状态和智能体的动作后，会通过长思维链推理，精确预测出环境下一步会给出什么反馈，比如下一屏的UI长什么样、终端会输出什么、或者报错信息是什么。
可控对抗模拟
：支持注入特定的模拟指令，比如"隐藏部分搜索结果"或者"模拟磁盘满了的报错"，这样就能系统性地生成真实环境中极为罕见的边缘案例。
智能体强化学习训练
：它可以作为一个独立的环境模拟器，支撑Sim Agentic RL方案，在超过4000个真实OpenClaw环境中实现可扩展的回合级训练。
统一智能体基础模型
：世界模型的训练过程，本身就能当作智能体训练的"热身"。这种能力内化成了类似"反思"的前向思考模式，能有效提升下游任务的表现。

Qwen-AgentWorld的技术原理

统一轨迹模式
：把7个异构环境的状态表示，全部统一为(system_prompt, action, observation)这个序列格式。其中的system_prompt又包含了任务描述、动作空间、初始状态、演示示例和模拟指令五个部分。
三阶段训练管线
：
- 持续预训练
  ：注入状态转移动力学和增强领域的专业语料，让模型建立起通用的世界建模能力。
- 监督微调
  ：激活"下一状态预测"的推理思维链模式。
- 强化学习
  ：采用混合评分标准奖励和规则奖励，精细打磨模拟的保真度。
混合奖励框架
：针对那些可验证的确定性能力，比如终端命令执行、文件系统变化，设计了规则验证器；而对于开放域的模拟质量，则采用五维评分标准来评判。
环境表示策略
：在纯文本领域，直接预测文本输出；在GUI领域，则用可访问性树和UI视图层级结构来表示状态，而不是处理原始像素。

如何使用Qwen-AgentWorld

作为环境模拟器
：部署模型来替代真实环境，通过API接收(state, action)，然后返回next_state。这样一来，就能在不依赖沙箱或虚拟机的情况下，进行大规模回合级的强化学习训练。
作为智能体基础模型
：直接把Qwen-AgentWorld当作智能体的骨干模型来用。它内置的世界建模能力能辅助动作选择，在Terminal-Bench、SWE-Bench、Claw-Eval这些基准上都能开箱即用。
模型获取
：可以从HuggingFace或ModelScope上下载权重，比如Qwen-AgentWorld-35B-A3B这个版本。

Qwen-AgentWorld的核心优势

首个原生多域语言世界模型
：从持续预训练阶段起，就把环境建模作为显式目标进行端到端训练，而不是事后对通用大语言模型做些适配。
显著超越前沿基线
：在AgentWorldBench上，397B-A17B版本拿下了58.8分，超越了Claude Opus 4.8的56.6分、GPT-5.4的58.2分、Gemini 3.1 Pro的54.6分、DeepSeek-V4-Pro的53.0分以及Qwen3.6-Plus的50.8分。
可扩展且可控
：不需要真实的基础设施，就能以回合级规模扩展环境。还能精确生成扰动，制造对抗样本。而且，在可控模拟下进行的强化学习，效果明显优于只在真实环境中训练的RL。
跨域泛化与预热迁移
：世界模型训练作为智能体训练的"预热"，可以迁移到7个基准上，其中3个基准甚至完全没有出现在训练集里。哪怕不做智能体任务的强化学习微调，也展现出了强大的泛化能力。
纯文本覆盖视觉环境
：在GUI领域，用无障碍树、HTML或UI层级标记来表示状态，也就是说，纯文本的世界建模就足以涵盖视觉交互环境。

Qwen-AgentWorld的项目地址

项目官网
：https://qwen.ai/blog?id=qwen-agentworld
GitHub仓库
：https://github.com/QwenLM/Qwen-AgentWorld
HuggingFace模型库
：https://huggingface.co/collections/Qwen/qwen-agentworld
arXiv技术论文
：https://arxiv.org/pdf/2606.24597

Qwen-AgentWorld的同类竞品对比

维度 Qwen-AgentWorld WebWorld

定位

七域统一语言世界模型（原生LWM）大规模Web智能体训练专用世界模型

环境覆盖

7大域：MCP、Search、Terminal、SWE、Web、Android、OS 单一域：Web浏览器环境

状态表示

统一文本模式：无障碍树XML、HTML、UI层级标记、Shell输出、代码执行结果多格式状态：A11y树、HTML、XML、Markdown、自然语言

训练方式

CPT → SFT → RL三阶段端到端原生训练，1000万+真实轨迹两阶段课程：广泛预训练 + 因果推理激活

模型规模

35B-A3B / 397B-A17B 14B / 32B

上下文窗口

支持长上下文 256K tokens

模拟深度

长思维链推理预测下一状态，支持可控对抗模拟支持30+连续步骤的多轮模拟，一致状态跟踪

动作空间

各域原生动作格式统一Python风格函数调用

评测基准

自建AgentWorldBench 基于WebArena、Mind2Web等Web智能体基准验证

核心优势

跨域统一、七域原生、可控对抗、双范式 Web域专精、多格式兼容、动作空间标准化、256K长上下文

Qwen-AgentWorld的应用场景

智能体训练基础设施
：为AI Agent提供一个低成本、可扩展、可控制的虚拟训练场，替代昂贵的沙箱和真实API调用。
边缘案例与对抗测试
：生成真实环境中罕见的错误状态，比如网络超时、权限拒绝、资源不足，用来测试智能体的鲁棒性。
软件工程辅助
：模拟代码执行、测试反馈、Git操作的结果，帮助开发者预先演练操作可能带来的后果。
自动化UI测试
：模拟Android、Web、桌面应用的交互，预测点击或输入后的页面状态变化，用于自动化测试脚本的生成。
工具调用与MCP生态
：模拟MCP服务器的响应和多工具链的编排，帮助开发者调试复杂的调用逻辑，而不用真的部署一套服务。

Qwen-AgentWorld - 通义千问推出的原生语言世界模型

Qwen-AgentWorld是什么

Qwen-AgentWorld的主要功能

七域统一环境模拟

长思维链状态预测

可控对抗模拟

智能体强化学习训练

统一智能体基础模型

Qwen-AgentWorld的技术原理

统一轨迹模式

三阶段训练管线

持续预训练

监督微调

强化学习

混合奖励框架

环境表示策略

如何使用Qwen-AgentWorld

作为环境模拟器

作为智能体基础模型

模型获取

Qwen-AgentWorld的核心优势

首个原生多域语言世界模型

显著超越前沿基线

可扩展且可控

跨域泛化与预热迁移

纯文本覆盖视觉环境

Qwen-AgentWorld的项目地址

项目官网

GitHub仓库

HuggingFace模型库

arXiv技术论文

Qwen-AgentWorld的同类竞品对比

定位

环境覆盖

状态表示

训练方式

模型规模

上下文窗口

模拟深度

动作空间

评测基准

核心优势

Qwen-AgentWorld的应用场景

智能体训练基础设施

边缘案例与对抗测试

软件工程辅助

自动化UI测试

工具调用与MCP生态

相关阅读

相关下载