首页 > 教程攻略 > ai资讯 >腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

来源:互联网 时间:2026-06-06 07:53:04

最近,腾讯混元团队在注意力机制优化上放了个“大招”——他们提出的 Stem 稀疏注意力算法,已经被机器学习顶会 ICML-26 接收。简单来说,这是一个从“因果信息流”角度重新审视块级稀疏的方案,目标很明确:用更少的计算成本,逼近稠密注意力的精度。

腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

官方给出的核心突破有两个:Token 位置衰减(TPD)和输出感知度量(OAM)。这两个创新点听起来有点抽象,但效果很实在——只用 25% 的算力,就能达到几乎和稠密注意力相同的精度。这意味着什么?意味着大规模语言模型在推理阶段的成本可以大幅下降,而效果几乎不受影响。

▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据

更关键的是,理论上的加速比要落地,还得靠扎实的工程实现。混元团队配套开发了高效的 HPC 算子库,把稀疏收益真正转化成了硬件上的实测性能。根据 Stem 算法与 HPC 算子组成的全栈加速方案:在算法层面,TPD 和 OAM 实现了 25% 预算下的近无损精度;在算子层面,开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速——在 128K 上下文场景下,首字延迟降低了 3.6 倍。这个数字放在生产环境里,体验提升是肉眼可见的。

▲ 模型精度

相关下载