首页 > 教程攻略 > ai资讯 >千问正式发布原生语言世界模型Qwen-AgentWorld

千问正式发布原生语言世界模型Qwen-AgentWorld

来源：互联网时间：2026-06-26 13:27:07

大模型还能怎么进化？最近千问给出了一个有意思的新答案——全球首个原生语言世界模型Qwen-AgentWorld正式发布。这东西跟咱们平时聊天的那些大模型可不一样，它直接从底层训练逻辑出发，把整个智能体交互环境给构建出来了。说白了，就是从“你问它答”往“它能自己动手做事”的方向迈了一大步，技术路径上算是开了个新口子。

现在行业内大多数做法，是在通用大模型训练完之后，再想办法给它加上一些适配智能体环境的能力——相当于先造好一辆车，回头再琢磨怎么加装个越野胎。但千问这次的路数完全不同：从继续预训练阶段，就把“环境建模”作为核心训练目标来搞。能力建设贯穿预训练、监督微调、强化学习的全流程，让模型从骨子里就具备对复杂交互环境的原生理解能力，而不是通过后期微调硬塞进去的附加属性。

有意思的是，单颗模型就能同时覆盖七大核心领域的交互场景。文本类环境——比如MCP、搜索、终端操作、软件工程，它都能搞定；图形界面环境——像网页、操作系统、安卓系统这些，它也能直接适配。跨领域的知识自由迁移，不需要针对不同场景单独搞专用模型。千问还同步推出了配套的评测基准AgentWorldBench，覆盖同样的七大领域。关键在于，所有测试样本都搭载真实环境执行得到的观测数据，而不是模拟生成的仿真数据——这就让评测结果更有说服力，能更精准地衡量这类语言世界模型的真实能力。

公开评测数据摆出来，表现确实亮眼。Qwen-AgentWorld大幅领先主流同类模型，其中397B参数版本的整体模拟质量超越了GPT-5.4、Claude Opus 4.8与Gemini 3.1 Pro，拿到了58.71的最高整体均分。更让人意外的是，35B参数版本的表现也超过了Claude Sonnet 4.6。测试中还发现模型原生涌现出三类独特的推理模式：自我修正、信息泄漏防护与多步因果推理。它会用“Wait!”作为自我纠错的触发信号，在搜索场景中能主动避免摘要意外泄露目标答案，预测特定命令输出时还能自主构建出6步的完整推理链。这些能力不是硬写进去的，而是模型在训练过程中自己长出来的，挺有意思。

目前这款模型和配套的评测基准代码已经在HuggingFace和ModelScope平台开放，开发者可以直接获取资源开展二次开发。它的落地将大幅拓宽大模型在智能体领域的应用深度——从底层代码指令执行到图形界面任务自动化处理都能实现原生适配，对AI辅助办公、自动化业务处理这些场景来说，意味着更流畅的全新交互体验。方向对了，步子也迈得够大，接下来就看开发者们怎么玩了。

千问正式发布原生语言世界模型Qwen-AgentWorld

相关阅读

相关下载