首页 > 教程攻略 > web3.0 >智谱发布GLM-5.1高速版模型输出速度达400 tokens/s

智谱发布GLM-5.1高速版模型输出速度达400 tokens/s

来源：互联网时间：2026-05-27 09:46:20

大模型的速度竞赛，又刷新了一个关键指标。智谱近日面向部分企业客户，推出了GLM-5.1的高速版本API——“GLM-5.1-highspeed”。这个版本最引人注目的，是其模型输出速度达到了每秒400个token，一举刷新了当前全球大模型厂商在API服务上的速度上限。

速度的提升，直接意味着应用场景的拓宽。这个高速版并非简单的“加速”，而是专门针对那些对响应延迟“零容忍”的场景设计的。比如，在AI编程助手进行实时代码补全时，在需要连续、流畅对话的实时交互中，或者在商业决策系统要求瞬间分析海量数据并给出结论时，毫秒级的延迟都可能影响体验和效率。此外，它为真正的“实时语音”交互铺平了道路，让大模型驱动的语音助手能像真人一样即时回应，消除了恼人的等待间隙。

目前，这项高速API服务已在智谱的MaaS平台上面向部分企业客户开放。这标志着大模型能力的竞争，正从单纯的“智力”（即理解与生成质量）维度，向“体力”（即推理与输出效率）维度深化，为更实时、更沉浸的AI应用落地提供了关键的技术支撑。

智谱发布GLM-5.1高速版模型输出速度达400 tokens/s

相关阅读

相关下载

智谱发布GLM-5.1高速版 模型输出速度达400 tokens/s

相关阅读

相关下载

智谱发布GLM-5.1高速版模型输出速度达400 tokens/s