阿里发布Qwen3.7-Max大模型,全球第五、国产第一

2026年5月22日,阿里巴巴正式发布了新一代旗舰大模型——Qwen3.7-Max。这意味着,无论是手机上的千问App、电脑上的客户端,还是网页版,现在都能直接体验到这款最新的模型了。
操作起来很简单:将千问App更新到6.9.7或更高版本,在界面底部就能找到“Qwen3.7-Max”的快捷入口,点一下就能用。在电脑端或网页上,只需要在对话窗口顶部的模型选择栏里下拉切换一下,就能立刻启用。最关键的是,这次升级对所有用户免费开放。
性能表现:站稳全球第一梯队
那么,这款新模型实力究竟如何?根据国际权威评测机构Artificial Analysis最新发布的全球大模型综合排名,Qwen3.7-Max以56.6分的成绩,位列全球第五,同时也是国产大模型中的第一名。这个位置,足以说明它已经稳稳站在了全球第一梯队。
专项能力深度解析
当然,综合排名只是一个维度。要真正了解一个模型的实力,还得看它在具体任务上的“硬功夫”。
编程智能体:专业领域的尖子生
对于开发者而言,模型的编程能力至关重要。Qwen3.7-Max在SWE-Pro和SWE-Multilingual等专业编程测评中表现突出。更值得一提的是,在Terminal Bench 2.0-Terminus这项测试中,它拿到了69.7分,这个成绩已经超越了DeepSeek-v4-pro-Max、Claude-Opus4.6等一众主流竞争对手。
通用智能体:现实场景的应用高手
如果说编程是“纸上谈兵”,那么通用智能体能力考验的就是“真枪实弹”的任务执行水平。Qwen3.7-Max在这方面实现了显著跃升。在MCP-Atlas、MCP-Mark以及Skillbench等聚焦实际任务执行能力的权威评测中,它都取得了优异成绩。
整体来看,其通用智能体水平已经超过了GLM5.1、Kimi-K2.6等国内领先模型,刷新了国产大模型在现实场景应用能力上的纪录。此外,它在Kernel Bench L3测试中展现出的卓越GPU内核级优化能力,也为其高效处理复杂任务提供了底层支撑。
复杂推理:逻辑思维的顶尖选手
处理复杂问题,离不开强大的推理能力。在GPQA Diamond、HLE、HMMT 2026年2月版以及IMOAnswerBench等多项核心推理基准测试中,Qwen3.7-Max的表现全面超越了Claude-Opus4.6,同时也超越了所有已公开的国产模型。这标志着其在深度逻辑分析和解决复杂问题方面,已经达到了国际顶尖水准。
语言理解与多语言处理:沟通无界的基石
最后,作为大模型的基础核心能力,语言理解同样关键。Qwen3.7-Max在衡量指令遵循能力的IFBench评测中,得分高达79.1分,创下了历史新高。同时,在WMT24++与MAXIFE等多语言理解与翻译的权威测评中,它也位居前列。这意味着,无论是理解用户的复杂意图,还是处理跨语言的信息,它都能提供相当可靠的支持。
总的来看,Qwen3.7-Max的发布,不仅是阿里巴巴在技术上的又一次重要迭代,更是在全球大模型竞技场上,为国产模型树立了一个新的标杆。从编程到通用任务,从复杂推理到多语言理解,其全面而均衡的顶级表现,确实值得期待它在实际应用中的表现。