算力提速关键突破:北大与 DeepSeek 联合开源大模型推理框架 DSpark
大模型推理效率的瓶颈,终于迎来了技术层面的转机。6月28日,北京大学与深度求索联手推出并开源了大模型推理加速框架——DSpark,目标很明确:解决LLM在高并发场景下,因频繁前向计算带来的响应延迟和算力浪费问题。
先说一个核心痛点。在大模型标准的自回归生成流程中,每次输出一个词元,系统都得消耗完整的算力资源。这直接限制了对话的实时响应速度——你说一句话,模型得一字一字地“想”,每一步都是满负荷运算。虽然推测解码是目前主流的提速手段,但传统方案有明显短板:简单模型串行生成耗时太长,而并行模型在处理长序列时,候选接受率又容易下降,结果大量算力被白白浪费。

针对这些短板,DSpark引入了双重优化机制。在候选生成阶段,它采用半自回归架构——通过并行主干网络一次性输出高质量的基础特征,再辅以轻量化模块来优化文本逻辑。这套方案有多高效?仅需两层Transformer结构,就能达到优于五层并行模型的表现,在速度与质量之间找到了一个很巧妙的平衡点。在验证调度层面,框架内置了置信度调度验证机制:由硬件感知前缀调度器实时判断算力负载,优先处理可靠性高的文本片段,从而最大程度减少无效计算。
实际表现如何?在通义千问3、Gemma4等主流模型上,经过代码编写、数学推理、日常对话等多场景的严格测试,DSpark的成果相当亮眼。相比Eagle3和DFlash这两类行业主流基线模型,它的单轮有效生成长度优势明显;尤其在长序列生成任务中,有效缓解了候选有效率衰减这个老大难问题。
工程落地方面,研发团队做了深度系统级优化。包括用序列打包来降低内存消耗、设计异步调度模式消除GPU流水线卡顿,同时对主流CUDA硬件生态做了兼容性保证。目前,DSpark已经率先部署在DeepSeek-V4-Flash与DeepSeek-V4-Pro的预览版服务引擎中。实测数据显示,不论在哪种响应速度标准下,系统整体吞吐量都实现了跨越式增长。
值得关注的是,深度求索已在GitHub项目中开源了DSpark、DFlash及Eagle3的全套训练代码、模型权重及评估工具。这意味着,行业高性能推理服务的部署成本将大幅降低,为大模型的低成本普及提供了一条切实可行的技术路径。