首页 > 教程攻略 > 热点新闻 >智谱发布Infra新成果:同等硬件投入,算力多出15%

智谱发布Infra新成果:同等硬件投入,算力多出15%

来源:互联网 时间:2026-05-21 10:49:58

5月21日上午消息,智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube:线上Infra实测数据表明,在同等GPU配置下,将网络带宽从200Gbps提升至400Gbps,推理总吞吐提升约10%,首响时延下降19%,这一规律随着推理规模扩大会越来越显著。

通过将ZCube投入在千卡级GLM-5.1的一个线上推理集群中,在GPU型号、软件栈、业务代码全部不变的前提下,仅升级网络架构,其与传统ROFT架构的对比GPU平均推理吞吐提升15%以上,TTFT P99尾时延下降40.6%。

这意味着,同样的硬件投入下,智谱GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言,这直接对应更高的并发上限、更低的排队延迟,以及在流量峰值下更稳定的用户体验。

成本端的变化同样明显,ZCube 架构所需的交换机和光模块比原有方案少三分之一。规模越大,这个差值越可观。

更关键的是,这项升级的边际成本接近于零:GPU 不换,服务器不换,软件代码不改,纯粹是组网架构的替换。这意味着智谱已有的算力资产在同等投入下释放了更高的产出,相当于存量资产的效率重估。

据悉,ZCube技术被国际顶会ACM SIGCOMM 2025评价为“显著改变整个行业对网络的认知方式”,此次在智谱的落地实践是ZCube架构首次在真实大规模推理集群中完成生产验证。(文猛)