首页 > 教程攻略 > ai资讯 >阿里发布Qwen3.7-Plus

阿里发布Qwen3.7-Plus

来源:互联网 时间:2026-06-04 14:20:06

千问3.7来了,这次多模态要“干活”

阿里巴巴千问系列又有大动作。近日,千问3.7家族的新成员——Qwen3.7-Plus正式亮相。这款模型定位为“多模态交互混合智能体基座”,可以看作是千问团队在视觉-语言方向上的一次全面升级。消息一出,阿里美股盘前上涨超6%,港股收涨6.6%,市场用真金白银投了信任票。

阿里发布Qwen3.7-Plus

先说几个关键点。Qwen3.7系列分为两大旗舰:万亿级MoE纯文本大模型Qwen3.7-Max,主打深度推理;Qwen3.7-Plus采用35B稠密参数架构,聚焦多模态全链路的落地执行。说白了,Max负责“想得深”,Plus负责“做得全”。两者分工明确,互补配合。

Qwen3.7-Plus的核心能力可以概括为:单模型完成“看、想、写、做、验”的全流程闭环。它原生融合了文本、图片、截图、短视频、网页五种输入形态,打通了GUI可视化界面与CLI命令行的双操作环境。这就与市面上那些只能做图文问答的普通多模态模型拉开了差距——它的目标不是“解析信息”,而是“根据视觉内容拆解任务、调用工具、写代码、自主操作并纠错”,一个面向企业开发和行业数字化的工程级大模型。

与上一代Qwen3.6-Plus相比,Qwen3.7-Plus的性能提升相当明显。

视觉推理方面

,在纯视觉推理BabyVision评测中,得分从上代的37.4直接跃升至64.7,一举超越Gemini 3.1-Pro,泛化能力实现质的飞跃。在SimpleVQA、MMSearchPlus、MMBC等搜索增强知识问答评测中,性能得分较前代最高提升了2倍多,表现大多优于Claude-Opus-4.6 Max。

智能体能力方面

,在Skillbench通用Agent评测中,得分较上代提升了10.2分;Terminal Bench 2.0和SciCode编程评测中提升约9分,能力直逼Claude-Opus-4.6 Max;数学推理Apex评测中,得分更是接近上代的3倍。

综合排名方面

,在全球权威视觉模型榜单Vision Arena中,阿里凭借Qwen3.7-Plus跻身全球前五、中国第一。值得说明的是,它的纯文本能力已经接近同系列的旗舰Qwen3.7-Max,可以说是Plus级别中综合能力最强的选手。

最亮眼的突破:GUI屏幕智能操控

Qwen3.7-Plus最具突破性的能力,当属GUI屏幕智能操控。在ScreenSpot Pro屏幕理解评测中,它拿下79分,超越了GPT-5.4和Gemini 3.1 Pro。模型可以精准识别各类软件、App、网页中的按钮、输入框、弹窗等界面控件,并自主规划操作步骤。在OSWorld和AndroidWorld真机测试中,它可以无需人工干预,独立完成电商下单、后台数据导出这类复杂的长周期任务。

视觉转代码

也是它的一大亮点。只需要上传UI设计稿、产品截图或参考视频,模型就能一键生成SVG图标、前端网页代码或交互式程序源码。在实际测试中,Qwen3.7-Plus曾经连续11小时无人值守,从零开始完成了一款英语单词学习App的全栈开发,累计生成代码超过10000行;还能1:1复刻macOS原生的Stocks股票应用,从需求拆解、代码编写、BUG调试到项目打包全部自主完成,并顺利通过了10项核心功能验证测试。

多维度视觉深度推理

方面,模型支持128K超长上下文,可以一次性解析整本图文手册或完整的源码工程。幻觉率低至22.9%,处于全球前沿行列。集成代码解释器后,它可以处理“找不同”、“解华容道”等视觉谜题;接入搜索增强后,甚至可以精准分析模糊的专业机械图纸。

视频与驾驶场景理解

方面同样大幅增强。模型能够识别视频中的事件、动作、时序和语义关系,为自动驾驶、具身智能等真实世界应用打下了基础。

目前,Qwen3.7-Plus已在阿里云百炼平台上线,支持OpenAI兼容API与Anthropic协议调用,定价为输入0.4美元/百万Token,输出1.6美元/百万Token。模型具备跨框架泛化能力,无论通过Claude Code、OpenClaw还是Qwen Code部署,性能表现都很稳定。

Agentic时代,AI正在从“对话”走向“干活”。Qwen3.7-Plus不仅能看懂图片、理解视频、操作界面,还能生成代码并直接交付成果。这标志着国产多模态AI已经从“实验室参数竞赛”正式迈入产业落地实用的阶段。