刚刚，DeepSeek V4更新DSpark，推理速度提升80%

来源：互联网时间：2026-06-28 14:23:06

DeepSeek V4 又更新了，这次不声不响地放了个大招。

新推出的投机解码框架

DSpark

已经同步上线，与此同时，支撑这个版本的全栈推测性解码框架

DeepSpec

也一并开源。

需要说明的是，这次不是全新架构的模型换代，而是在 DeepSeek-V4-Pro 的基础上，引入了推测性解码模块。说白了，这次更新的重点在于工程落地，而非模型能力本身的迭代。

DSpark 目前已经在 DeepSeek-V4（Flash 和 Pro）的真实线上流量中部署，效果立竿见影——大语言模型的推理速度大幅提升。

技术报告：《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

技术报告链接：https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSpark 的初衷，归根结底就是解决生产环境中的老大难问题——尤其是在高并发场景下，LLM 推理面临的延迟和吞吐量瓶颈。简单来说，它成功地把高吞吐量的「并行生成」和自适应的「负载感知验证」结合到了一起。

推测性解码是什么？它本质上是一种不改变模型输出分布，却能加速大模型推理的技术。核心思路是引入一个轻量级的「草稿模型」，先预生成一批候选 token，然后由目标模型批量验证并接受或拒绝。这样一来，原本串行的逐 token 生成就变成了并行批量校验，端到端延迟自然就降下来了。

而 DSpark 的创新点，在于引入了

半自回归生成架构（Semi-Autoregressive Generation）

。这个架构保留了并行草稿模型的高吞吐优势，同时加入了一个轻量级的串行模块，专门对 block 内 token 之间的依赖关系进行建模。目的是什么？就是为了缓解并行草稿模型在后续位置上容易出现的接受率衰减问题。

另一个关键创新是

硬件感知的置信度调度验证（Confidence-Scheduled Verification）

。以往的投机解码，往往会把生成的草稿 token 一股脑全送去验证。系统负载高的时候，那些极大概率被拒绝的尾部 token，就会白白浪费宝贵的批处理算力。DSpark 引入了一个置信度头，专门评估每个 token 的存活概率。再结合硬件感知前缀调度器，系统就能根据实时的引擎吞吐量，动态为每个请求量身定制最优的验证长度，把算力只用在预期回报最高的 token 上。

为了保证在真实线上基础设施中落地，DSpark 的调度器还采用了异步机制，兼容零开销调度和连续的 CUDA 图回放。它利用前两步的历史预测，来决定当前动态截断长度，从而隐藏了调度延迟，避免了 GPU 流水线停顿，同时保证了目标模型输出分布完全无损还原。

测试数据也很能说明问题。在数学推理、代码生成和日常对话等多个领域，DSpark 大幅超越了目前最先进的自回归模型（Eagle3）和并行草稿模型（DFlash）。举个例子，在 Qwen3 系列（4B、8B、14B）目标模型上，它的平均接受长度比 Eagle3 提升了 26.7% 到 30.9%，比 DFlash 提升了 16.3% 到 18.4%。

和上一代部署的单 Token 生产基准（MTP-1）相比，在维持相同总体吞吐量的情况下，

DSpark 将用户的生成速度分别提升了 60%-85%（Flash 模型）和 57%-78%（Pro 模型）

。

随 DSpark 一同开源的 DeepSpec，是一个用于训练和评估推测性解码草稿模型的全栈代码库。它承载了这套方案以及其他前沿算法的实现，堪称「开源基础设施」。里面包含了数据准备工具、草稿模型实现、训练代码和评估脚本，一应俱全。

DeepSpec 把整体流程拆成了三个阶段：数据准备、训练和评估。三个阶段需要按顺序运行，前一阶段的输出作为后一阶段的输入。

数据准备阶段，需要下载提示词数据，用推理引擎对目标模型重新生成答案，并构建目标缓存。值得注意的是，以默认的 Qwen/Qwen3-4B 配置为例，目标缓存体积可达约 38 TB。在动手之前，一定要先评估好存储资源。

训练阶段可以通过 bash scripts/train/train.sh 启动。脚本会调用 train.py，并为每张可见的 GPU 启动一个 worker。用户可以通过指定 config_path，在 config/ 目录下选择不同算法和目标模型配置。项目也支持通过覆盖 config_path、target_cache_dir，以及使用 --opts 修改单个配置字段来调整训练设置。

硬件方面，DeepSpec 默认配置面向单节点 8 卡环境。如果你的 GPU 数量较少，就需要相应减少 CUDA_VISIBLE_DEVICES 中的可见 GPU 数量。

评估阶段通过 bash scripts/eval/eval.sh 启动。评估脚本会使用训练好的草稿模型 checkpoint，在多个 speculative decoding 基准任务上衡量接受情况。项目当前列出的评估数据集包括 GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca 和 Arena-Hard-v2，覆盖了数学推理、代码生成、对话能力和综合问答等不同任务类型。

算法方面，DeepSpec 目前内置了三种草稿模型：DSpark、DFlash 和 Eagle3。目标模型系列方面，目前支持 Qwen3 和 Gemma。

DeepSpec 的开源，把推测性解码这一此前散落于各研究团队内部的工程实践，整合成了一套可复现、可扩展的标准化工具链。对于希望为自有大模型加速推理的研究者和工程师来说，这意味着可以直接在成熟框架上训练定制草稿模型，跳过大量重复的基础设施搭建工作。

参考链接：

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpec