首页 > 教程攻略 > 热点新闻 >智谱发布Infra新成果：同等硬件投入，算力多出15%

智谱发布Infra新成果：同等硬件投入，算力多出15%

来源：互联网时间：2026-05-21 10:49:58

5月21日上午消息，智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube：线上Infra实测数据表明，在同等GPU配置下，将网络带宽从200Gbps提升至400Gbps，推理总吞吐提升约10%，首响时延下降19%，这一规律随着推理规模扩大会越来越显著。

通过将ZCube投入在千卡级GLM-5.1的一个线上推理集群中，在GPU型号、软件栈、业务代码全部不变的前提下，仅升级网络架构，其与传统ROFT架构的对比GPU平均推理吞吐提升15%以上，TTFT P99尾时延下降40.6%。

这意味着，同样的硬件投入下，智谱GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言，这直接对应更高的并发上限、更低的排队延迟，以及在流量峰值下更稳定的用户体验。

成本端的变化同样明显，ZCube 架构所需的交换机和光模块比原有方案少三分之一。规模越大，这个差值越可观。

更关键的是，这项升级的边际成本接近于零：GPU 不换，服务器不换，软件代码不改，纯粹是组网架构的替换。这意味着智谱已有的算力资产在同等投入下释放了更高的产出，相当于存量资产的效率重估。

据悉，ZCube技术被国际顶会ACM SIGCOMM 2025评价为“显著改变整个行业对网络的认知方式”，此次在智谱的落地实践是ZCube架构首次在真实大规模推理集群中完成生产验证。（文猛）

相关阅读