谷歌推出DiffusionGemma开源模型
来源:互联网
时间:2026-06-14 13:54:04
近日,谷歌DeepMind扔出一枚开源新弹——
DiffusionGemma

我们熟悉的大多数主流大模型,比如GPT、Gemini这些,走的都是自回归路线——从左到右,一个字一个字地往外“蹦”,就像打字机一样。这种机制在云端高并发批处理时效率尚可,但一旦放到本地GPU上推理,内存带宽就成了瓶颈,大量算力都浪费在等待数据搬运上。
DiffusionGemma不这么干。它更像我们熟知的图像生成模型:先初始化一块由256个随机占位Token组成的“画布”,然后通过多轮并行去噪,逐步优化整块内容,最终一次性输出完整文本。所有Token同时生成、同时优化。瓶颈从内存带宽转移到了计算能力上,GPU的Tensor Core终于能放开手脚了。
更值得关注的是,它还支持
迭代自我纠正
DiffusionGemma采用了
260亿参数的混合专家(MoE)架构
速度表现到底如何?我们直接看数据:
| 硬件平台 | 生成速度 | 对比自回归模型 |
|---|---|---|
| 单块H100 | 1000+ tokens/s | 约4倍 |
| DGX Station | 2000 tokens/s | 约4倍 |
| DGX Spark | 150 tokens/s | 约4倍 |
| RTX 5090 | 700+ tokens/s | 约4倍 |
采样速度达到1479 tokens/秒,单次生成开销仅为0.84秒。
亮点自然是有的:
- :HumanEval达到89.6%,BigCodeBench 45.4%,LiveCodeBench 30.9%,与Gemini 2.0 Flash-Lite互有胜负
代码生成
- :AIME 2025得分23.3%,超越了对比模型的20.0%。这说明扩散架构在推理任务上确实有潜力可挖
数学能力
不足也很明显:
- :GPQA Diamond仅40.4%,远低于对比模型的56.5%
科学推理
- :BIG-Bench ExtraHard仅15.0%,落后于对比模型的21.0%
复杂推理
谷歌的态度相当坦诚:DiffusionGemma的定位就是面向研究者和开发者的
实验性模型
它的速度优势,主要体现在
本地及低并发推理场景
但如果你追求的是最高输出质量,特别是科学推理、复杂逻辑推演这类任务,标准Gemma 4依然是更可靠的选择。DiffusionGemma的真正价值,并不在于要替代谁,而在于证明了另一条路径走通了:文本生成不一定非要逐字排队,并行扩散同样行得通——而且在本地硬件上,它还能走得更快。