DiffusionGemma - 谷歌开源的实验性文本扩散模型
来源:互联网
时间:2026-06-12 14:46:22
DiffusionGemma是什么
简单来说,DiffusionGemma是Google DeepMind推出的一个实验性开源文本扩散模型。它可不是那种中规中矩的版本,而是基于Gemma 4的架构和Gemini Diffusion的研究成果打造的。核心设计是26B的MoE架构,亮点在于:它能并行去噪256-token大小的文本块。这意味着什么?在单张NVIDIA H100上,它的生成速度能跑到1000+ tokens/秒,相比传统自回归模型,速度提升了大约4倍。而且,它支持双向注意力和实时自我纠错,量化后仅需18GB VRAM,这意味着在消费级GPU上也能本地跑起来。
DiffusionGemma的主要功能
既然要打破常规,那它具体能做什么?我们来看看它的几项看家本领:
- :核心思路变了。它不再是“挤牙膏式”地逐词输出,而是每次前向传播同时去噪256个token,相当于整块地生成文本。
并行文本生成
- :生成过程中,每个token都能关注同一块内的所有其他token。这直接支持了代码填充、内联编辑这类非线性文本任务,过去的自回归模型很难做到这么灵活。
双向上下文推理
- :这是个大杀器。如果某个token的置信度下降,采样器可以把它重新“加噪”,然后在后续步骤中修正。相当于可以边走边改,而不是一条道走到黑。
实时自我纠错
- :文本、图像、视频可以交错输入,上下文窗口高达256K token,它都能处理,并生成文本输出。
多模态输入处理
- :通过块自回归扩散机制,它会将已去噪的256-token块提交至KV缓存,然后继续生成下一块。这样既兼顾了并行的速度,又保证了长序列生成的稳定性。
长序列块级生成
DiffusionGemma的技术原理
技术核心其实并不复杂,可以从三个角度来理解:
- :它的思路借鉴了图像扩散模型。想象一下,你有一块由随机占位符填充的256-token画布。模型通过多次去噪迭代,逐步锁定高置信度的token,并用已经锁定的token作为上下文线索去“解读”邻居。最终,整个序列会收敛成连贯的文本。每次前向传播大约能固化15–20个token,并行处理极大地提升了吞吐量。
Uniform State Diffusion(均匀状态扩散)
- :传统自回归模型在本地推理时,计算单元经常很闲,瓶颈在内存带宽上。DiffusionGemma反其道而行之,把瓶颈转移到了计算侧。它给GPU的张量核心喂去了大规模的并行去噪任务,让GPU保持高利用率。结果就是,单张H100上速度超1000 tokens/秒,RTX 5090上也能达到700+ tokens/秒。
硬件瓶颈转移
- :推理过程很聪明。在Prefill阶段,它用因果注意力处理输入提示并写入KV缓存;在Denoising阶段,则切换为双向注意力,让画布内的每个token都能同时关注所有其他token。这套架构让它能完美应对需要全局约束的任务。
混合注意力架构
如何使用DiffusionGemma
再好的模型,也得能上手才行。好消息是,它的接入方式很友好:
- :可以用vLLM的OpenAI兼容服务器启动模型,配置好扩散采样器和256-token画布参数后,它就能提供推理服务了。
vLLM 本地部署
- :模型权重以Apache 2.0协议开源,直接去Hugging Face仓库下载就行。
Hugging Face 下载权重
- :它原生支持Hugging Face Transformers、SGLang和MLX等框架,加载推理非常方便。
主流推理框架运行
- :Google还开源了JAX研究工具箱和官方训练配方,方便你针对特定任务进行快速实验和微调。
Hackable Diffusion 微调
DiffusionGemma的核心优势
总结下来,它的优势很明显:
- :在单用户本地场景下,比同规格自回归模型快约4倍。H100实测1000+ tokens/秒,这能显著降低交互式开发工具的延迟。
极致本地推理速度
- :量化后仅需18GB VRAM,RTX 4090或5090就能跑,甚至DGX Spark桌面工作站也行,完全不需要服务器级集群。
消费级硬件可运行
- :首发即兼容vLLM、Hugging Face Transformers、MLX、Unsloth等主流工具链,接入成本极低。
开源生态零日支持
- :双向注意力是它的一大法宝。在代码填充、结构化输出、氨基酸序列、数学图等需要全局约束的任务上,它的表现远超传统自回归模型。
非线性文本任务专长
DiffusionGemma的项目地址
- :https://developers.googleblog.com/diffusiongemma-the-developer-guide/
项目官网
- :https://huggingface.co/google/diffusiongemma-26B-A4B-it
HuggingFace模型库
DiffusionGemma的同类竞品对比
为了让你更直观地理解它和标准自回归模型(比如标准Gemma 4)的区别,我们把它俩放一起看看:
生成方式
推理瓶颈
注意力机制
自我纠错
单用户本地速度
输出质量
最佳场景
模型规格
DiffusionGemma的应用场景
了解了它的优势和定位,就能知道它最适合用在哪里了:
- :在IDE里做内联补全、代码块填充,它对延迟有极高的要求,而DiffusionGemma的本地高速生成正好满足这点。
实时代码辅助
- :在已有段落中插入内容或改写局部文本时,它能利用双向注意力,确保修改点与上下文全局一致。
交互式文本编辑
- :像数独求解、数学图构建、氨基酸序列设计这类需要多变量同时满足严格约束的任务,它处理起来得心应手。
约束密集型生成
- :并行生成表格、配置文件或模板化文档,利用整块去噪能力一次性确定多个关联字段,效率极高。
结构化数据填充
- :在消费级GPU上离线运行,数据无需出本地,特别适合对隐私有严格要求的文档分析和敏感文本处理。
本地隐私敏感工作流