腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍
来源:互联网
时间:2026-06-06 07:53:04
最近,腾讯混元团队在注意力机制优化上放了个“大招”——他们提出的 Stem 稀疏注意力算法,已经被机器学习顶会 ICML-26 接收。简单来说,这是一个从“因果信息流”角度重新审视块级稀疏的方案,目标很明确:用更少的计算成本,逼近稠密注意力的精度。

官方给出的核心突破有两个:Token 位置衰减(TPD)和输出感知度量(OAM)。这两个创新点听起来有点抽象,但效果很实在——只用 25% 的算力,就能达到几乎和稠密注意力相同的精度。这意味着什么?意味着大规模语言模型在推理阶段的成本可以大幅下降,而效果几乎不受影响。
更关键的是,理论上的加速比要落地,还得靠扎实的工程实现。混元团队配套开发了高效的 HPC 算子库,把稀疏收益真正转化成了硬件上的实测性能。根据 Stem 算法与 HPC 算子组成的全栈加速方案:在算法层面,TPD 和 OAM 实现了 25% 预算下的近无损精度;在算子层面,开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速——在 128K 上下文场景下,首字延迟降低了 3.6 倍。这个数字放在生产环境里,体验提升是肉眼可见的。