首页 > 教程攻略 > web3.0 >智谱发布GLM-5.1高速版 模型输出速度达400 tokens/s

智谱发布GLM-5.1高速版 模型输出速度达400 tokens/s

来源:互联网 时间:2026-05-27 09:46:20

大模型的速度竞赛,又刷新了一个关键指标。智谱近日面向部分企业客户,推出了GLM-5.1的高速版本API——“GLM-5.1-highspeed”。这个版本最引人注目的,是其模型输出速度达到了每秒400个token,一举刷新了当前全球大模型厂商在API服务上的速度上限。

速度的提升,直接意味着应用场景的拓宽。这个高速版并非简单的“加速”,而是专门针对那些对响应延迟“零容忍”的场景设计的。比如,在AI编程助手进行实时代码补全时,在需要连续、流畅对话的实时交互中,或者在商业决策系统要求瞬间分析海量数据并给出结论时,毫秒级的延迟都可能影响体验和效率。此外,它为真正的“实时语音”交互铺平了道路,让大模型驱动的语音助手能像真人一样即时回应,消除了恼人的等待间隙。

目前,这项高速API服务已在智谱的MaaS平台上面向部分企业客户开放。这标志着大模型能力的竞争,正从单纯的“智力”(即理解与生成质量)维度,向“体力”(即推理与输出效率)维度深化,为更实时、更沉浸的AI应用落地提供了关键的技术支撑。

智谱发布GLM-5.1高速版 模型输出速度达400 tokens/s