谷歌推出DiffusionGemma开源模型

来源：互联网时间：2026-06-14 13:54:04

近日，谷歌DeepMind扔出一枚开源新弹——

DiffusionGemma

。这可不是又一款平平无奇的大模型，它走了一条截然不同的技术路线：文本扩散架构。在专用GPU上，它的文本生成速度比传统自回归大语言模型最高提升了4倍。模型以Apache 2.0许可证开源，权重已在Hugging Face上开放下载。

我们熟悉的大多数主流大模型，比如GPT、Gemini这些，走的都是自回归路线——从左到右，一个字一个字地往外“蹦”，就像打字机一样。这种机制在云端高并发批处理时效率尚可，但一旦放到本地GPU上推理，内存带宽就成了瓶颈，大量算力都浪费在等待数据搬运上。

DiffusionGemma不这么干。它更像我们熟知的图像生成模型：先初始化一块由256个随机占位Token组成的“画布”，然后通过多轮并行去噪，逐步优化整块内容，最终一次性输出完整文本。所有Token同时生成、同时优化。瓶颈从内存带宽转移到了计算能力上，GPU的Tensor Core终于能放开手脚了。

更值得关注的是，它还支持

迭代自我纠正

——在生成过程中，模型能主动发现并修正错误，输出更加稳定一致。这一特性在数独求解、行内编辑、分子测序这类非线性任务中优势明显。原因不难理解：这些任务中的每个Token都可能依赖未来的Token，自回归模型天生就吃力。

DiffusionGemma采用了

260亿参数的混合专家（MoE）架构

，但推理时只激活38亿参数。量化后占用约18GB显存，这意味着RTX 5090级别的消费级显卡就能跑起来。

速度表现到底如何？我们直接看数据：

硬件平台	生成速度	对比自回归模型
单块H100	1000+ tokens/s	约4倍
DGX Station	2000 tokens/s	约4倍
DGX Spark	150 tokens/s	约4倍
RTX 5090	700+ tokens/s	约4倍

采样速度达到1479 tokens/秒，单次生成开销仅为0.84秒。

亮点自然是有的：

代码生成
：HumanEval达到89.6%，BigCodeBench 45.4%，LiveCodeBench 30.9%，与Gemini 2.0 Flash-Lite互有胜负
数学能力
：AIME 2025得分23.3%，超越了对比模型的20.0%。这说明扩散架构在推理任务上确实有潜力可挖

不足也很明显：

科学推理
：GPQA Diamond仅40.4%，远低于对比模型的56.5%
复杂推理
：BIG-Bench ExtraHard仅15.0%，落后于对比模型的21.0%

谷歌的态度相当坦诚：DiffusionGemma的定位就是面向研究者和开发者的

实验性模型

。整体输出质量低于标准Gemma 4，生产环境还是建议用后者。

它的速度优势，主要体现在

本地及低并发推理场景

。在高并发云端部署中，优势其实有限。最合适的场景是那些对延迟敏感、需要实时响应的本地应用——比如个人AI助手、离线代码补全、本地文档处理等。

但如果你追求的是最高输出质量，特别是科学推理、复杂逻辑推演这类任务，标准Gemma 4依然是更可靠的选择。DiffusionGemma的真正价值，并不在于要替代谁，而在于证明了另一条路径走通了：文本生成不一定非要逐字排队，并行扩散同样行得通——而且在本地硬件上，它还能走得更快。

谷歌推出DiffusionGemma开源模型

DiffusionGemma

迭代自我纠正

260亿参数的混合专家（MoE）架构

亮点自然是有的：

代码生成

数学能力

不足也很明显：

科学推理

复杂推理

实验性模型

本地及低并发推理场景

相关阅读

相关下载