阿里发布Qwen3.7-Plus
千问3.7来了,这次多模态要“干活”
阿里巴巴千问系列又有大动作。近日,千问3.7家族的新成员——Qwen3.7-Plus正式亮相。这款模型定位为“多模态交互混合智能体基座”,可以看作是千问团队在视觉-语言方向上的一次全面升级。消息一出,阿里美股盘前上涨超6%,港股收涨6.6%,市场用真金白银投了信任票。

先说几个关键点。Qwen3.7系列分为两大旗舰:万亿级MoE纯文本大模型Qwen3.7-Max,主打深度推理;Qwen3.7-Plus采用35B稠密参数架构,聚焦多模态全链路的落地执行。说白了,Max负责“想得深”,Plus负责“做得全”。两者分工明确,互补配合。
Qwen3.7-Plus的核心能力可以概括为:单模型完成“看、想、写、做、验”的全流程闭环。它原生融合了文本、图片、截图、短视频、网页五种输入形态,打通了GUI可视化界面与CLI命令行的双操作环境。这就与市面上那些只能做图文问答的普通多模态模型拉开了差距——它的目标不是“解析信息”,而是“根据视觉内容拆解任务、调用工具、写代码、自主操作并纠错”,一个面向企业开发和行业数字化的工程级大模型。
与上一代Qwen3.6-Plus相比,Qwen3.7-Plus的性能提升相当明显。
视觉推理方面
智能体能力方面
综合排名方面
最亮眼的突破:GUI屏幕智能操控
Qwen3.7-Plus最具突破性的能力,当属GUI屏幕智能操控。在ScreenSpot Pro屏幕理解评测中,它拿下79分,超越了GPT-5.4和Gemini 3.1 Pro。模型可以精准识别各类软件、App、网页中的按钮、输入框、弹窗等界面控件,并自主规划操作步骤。在OSWorld和AndroidWorld真机测试中,它可以无需人工干预,独立完成电商下单、后台数据导出这类复杂的长周期任务。
视觉转代码
多维度视觉深度推理
视频与驾驶场景理解
目前,Qwen3.7-Plus已在阿里云百炼平台上线,支持OpenAI兼容API与Anthropic协议调用,定价为输入0.4美元/百万Token,输出1.6美元/百万Token。模型具备跨框架泛化能力,无论通过Claude Code、OpenClaw还是Qwen Code部署,性能表现都很稳定。
Agentic时代,AI正在从“对话”走向“干活”。Qwen3.7-Plus不仅能看懂图片、理解视频、操作界面,还能生成代码并直接交付成果。这标志着国产多模态AI已经从“实验室参数竞赛”正式迈入产业落地实用的阶段。