首页 > 教程攻略 > ai资讯 >腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

来源：互联网时间：2026-06-06 07:53:04

最近，腾讯混元团队在注意力机制优化上放了个“大招”——他们提出的 Stem 稀疏注意力算法，已经被机器学习顶会 ICML-26 接收。简单来说，这是一个从“因果信息流”角度重新审视块级稀疏的方案，目标很明确：用更少的计算成本，逼近稠密注意力的精度。

官方给出的核心突破有两个：Token 位置衰减（TPD）和输出感知度量（OAM）。这两个创新点听起来有点抽象，但效果很实在——只用 25% 的算力，就能达到几乎和稠密注意力相同的精度。这意味着什么？意味着大规模语言模型在推理阶段的成本可以大幅下降，而效果几乎不受影响。

▲ Stem 在 Hy3 preview（W8A8-FP8）上更贴近生产环境的真实落地数据

更关键的是，理论上的加速比要落地，还得靠扎实的工程实现。混元团队配套开发了高效的 HPC 算子库，把稀疏收益真正转化成了硬件上的实测性能。根据 Stem 算法与 HPC 算子组成的全栈加速方案：在算法层面，TPD 和 OAM 实现了 25% 预算下的近无损精度；在算子层面，开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速——在 128K 上下文场景下，首字延迟降低了 3.6 倍。这个数字放在生产环境里，体验提升是肉眼可见的。

▲ 模型精度

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

相关阅读

相关下载