DeepSeek发布DSpark推理加速框架，显著提升大

来源：互联网时间：2026-06-28 19:40:20

模型智能水平的比拼，确实是当下最热闹的赛道。但有一件事，没那么光鲜，却可能更关键——怎么让大模型跑得更快。

2026年6月28日，DeepSeek在开源平台放出了一个新框架，名叫DSpark，相关论文也同步公开。这玩意儿瞄准的不是又刷了多少分，而是高并发场景下大模型推理效率那块最难啃的骨头。

这项工作是DeepSeek和北京大学一起做的，创始人梁文锋也列名作者。开源做得相当彻底——DSpark的模型权重全量放出，还配套发布了一个叫DeepSpec的训练代码库，专攻推测解码方向。

先简单说一下瓶颈在哪。问题其实很经典：大模型的自回归生成机制，本质上是一个词一个词往外蹦。每一步都要把所有已经生成的词元再算一遍，输出越长，延迟就非线性飙升。GPU资源利用率上不去，用户那边等得心焦。实时对话助手、多轮智能体协作这类对延迟极度敏感的场景，尤其吃痛。

目前主流的优化路数主要有两条：一条靠自回归结构的草稿模型，另一条靠并行架构的草稿模型。各有各的尝试，但始终在生成质量和系统效率之间左右为难，更别提动态适应负载变化了——这个能力，基本是空白。

DeepSeek给出的答案，是DSpark这个推测解码框架。它的核心思路是半自回归生成架构。怎么理解呢？就是保留了并行主干的高吞吐特性，同时额外引入一个轻量级的串行模块，逐词元地把前缀依赖信息注入进去。这个模块有两种实现方式：一种叫马尔可夫头，只依赖前一个词元；另一种叫RNN头，通过循环状态持续累积完整前缀信息。两种方案，各有侧重。

实验数据挺能说明问题。在同等模型深度下，只用两层Transformer的DSpark，在所有测试任务上都超过了五层结构的DFlash模型——后者可是多了整整三层的深度。这意味着什么？架构设计上的代差，比单纯堆层数更管用。

目前DSpark已经集成到DeepSeek-V4的在线服务系统里，基于真实用户请求流量完整跑了一遍实测。结果很直接：在保持吞吐量不变的前提下，相比现有生产环境用的基线系统MTP-1，用户端文本生成速度提升了60%到85%。不是一个小数。

更值得注意的是，DSpark已经在多个第三方模型上完成了适配验证。拿Qwen3系列模型来说事，在4亿、8亿、14亿三种参数规格下，单轮平均可接受词元长度——这个是推测解码场景下评估效率的核心指标——相比自回归草稿方案分别提升了30.9%、26.7%和30%；相比并行草稿方案，也分别提升了16.3%、18.4%和18.3%。跨模型的泛化能力，基本算是验证扎实了。

总的来说，DSpark这个工作，方向选得很实际——不追求理论上的最优，而是扎扎实实解决线上部署最头疼的效率问题。开源加实测，这套打法确实让人期待后续的落地效果。

DeepSeek发布DSpark推理加速框架，显著提升大

相关阅读

相关下载