千问正式发布原生语言世界模型Qwen-AgentWorld
大模型还能怎么进化?最近千问给出了一个有意思的新答案——全球首个原生语言世界模型Qwen-AgentWorld正式发布。这东西跟咱们平时聊天的那些大模型可不一样,它直接从底层训练逻辑出发,把整个智能体交互环境给构建出来了。说白了,就是从“你问它答”往“它能自己动手做事”的方向迈了一大步,技术路径上算是开了个新口子。

现在行业内大多数做法,是在通用大模型训练完之后,再想办法给它加上一些适配智能体环境的能力——相当于先造好一辆车,回头再琢磨怎么加装个越野胎。但千问这次的路数完全不同:从继续预训练阶段,就把“环境建模”作为核心训练目标来搞。能力建设贯穿预训练、监督微调、强化学习的全流程,让模型从骨子里就具备对复杂交互环境的原生理解能力,而不是通过后期微调硬塞进去的附加属性。
有意思的是,单颗模型就能同时覆盖七大核心领域的交互场景。文本类环境——比如MCP、搜索、终端操作、软件工程,它都能搞定;图形界面环境——像网页、操作系统、安卓系统这些,它也能直接适配。跨领域的知识自由迁移,不需要针对不同场景单独搞专用模型。千问还同步推出了配套的评测基准AgentWorldBench,覆盖同样的七大领域。关键在于,所有测试样本都搭载真实环境执行得到的观测数据,而不是模拟生成的仿真数据——这就让评测结果更有说服力,能更精准地衡量这类语言世界模型的真实能力。
公开评测数据摆出来,表现确实亮眼。Qwen-AgentWorld大幅领先主流同类模型,其中397B参数版本的整体模拟质量超越了GPT-5.4、Claude Opus 4.8与Gemini 3.1 Pro,拿到了58.71的最高整体均分。更让人意外的是,35B参数版本的表现也超过了Claude Sonnet 4.6。测试中还发现模型原生涌现出三类独特的推理模式:自我修正、信息泄漏防护与多步因果推理。它会用“Wait!”作为自我纠错的触发信号,在搜索场景中能主动避免摘要意外泄露目标答案,预测特定命令输出时还能自主构建出6步的完整推理链。这些能力不是硬写进去的,而是模型在训练过程中自己长出来的,挺有意思。
目前这款模型和配套的评测基准代码已经在HuggingFace和ModelScope平台开放,开发者可以直接获取资源开展二次开发。它的落地将大幅拓宽大模型在智能体领域的应用深度——从底层代码指令执行到图形界面任务自动化处理都能实现原生适配,对AI辅助办公、自动化业务处理这些场景来说,意味着更流畅的全新交互体验。方向对了,步子也迈得够大,接下来就看开发者们怎么玩了。