首页 > 教程攻略 > ai资讯 >谷歌推出DiffusionGemma开源模型

谷歌推出DiffusionGemma开源模型

来源:互联网 时间:2026-06-14 13:54:04

近日,谷歌DeepMind扔出一枚开源新弹——

DiffusionGemma

。这可不是又一款平平无奇的大模型,它走了一条截然不同的技术路线:文本扩散架构。在专用GPU上,它的文本生成速度比传统自回归大语言模型最高提升了4倍。模型以Apache 2.0许可证开源,权重已在Hugging Face上开放下载。

谷歌推出DiffusionGemma开源模型

我们熟悉的大多数主流大模型,比如GPT、Gemini这些,走的都是自回归路线——从左到右,一个字一个字地往外“蹦”,就像打字机一样。这种机制在云端高并发批处理时效率尚可,但一旦放到本地GPU上推理,内存带宽就成了瓶颈,大量算力都浪费在等待数据搬运上。

DiffusionGemma不这么干。它更像我们熟知的图像生成模型:先初始化一块由256个随机占位Token组成的“画布”,然后通过多轮并行去噪,逐步优化整块内容,最终一次性输出完整文本。所有Token同时生成、同时优化。瓶颈从内存带宽转移到了计算能力上,GPU的Tensor Core终于能放开手脚了。

更值得关注的是,它还支持

迭代自我纠正

——在生成过程中,模型能主动发现并修正错误,输出更加稳定一致。这一特性在数独求解、行内编辑、分子测序这类非线性任务中优势明显。原因不难理解:这些任务中的每个Token都可能依赖未来的Token,自回归模型天生就吃力。

DiffusionGemma采用了

260亿参数的混合专家(MoE)架构

,但推理时只激活38亿参数。量化后占用约18GB显存,这意味着RTX 5090级别的消费级显卡就能跑起来。

速度表现到底如何?我们直接看数据:

硬件平台生成速度对比自回归模型
单块H1001000+ tokens/s约4倍
DGX Station2000 tokens/s约4倍
DGX Spark150 tokens/s约4倍
RTX 5090700+ tokens/s约4倍

采样速度达到1479 tokens/秒,单次生成开销仅为0.84秒。

亮点自然是有的:

  • 代码生成

    :HumanEval达到89.6%,BigCodeBench 45.4%,LiveCodeBench 30.9%,与Gemini 2.0 Flash-Lite互有胜负
  • 数学能力

    :AIME 2025得分23.3%,超越了对比模型的20.0%。这说明扩散架构在推理任务上确实有潜力可挖

不足也很明显:

  • 科学推理

    :GPQA Diamond仅40.4%,远低于对比模型的56.5%
  • 复杂推理

    :BIG-Bench ExtraHard仅15.0%,落后于对比模型的21.0%

谷歌的态度相当坦诚:DiffusionGemma的定位就是面向研究者和开发者的

实验性模型

。整体输出质量低于标准Gemma 4,生产环境还是建议用后者。

它的速度优势,主要体现在

本地及低并发推理场景

。在高并发云端部署中,优势其实有限。最合适的场景是那些对延迟敏感、需要实时响应的本地应用——比如个人AI助手、离线代码补全、本地文档处理等。

但如果你追求的是最高输出质量,特别是科学推理、复杂逻辑推演这类任务,标准Gemma 4依然是更可靠的选择。DiffusionGemma的真正价值,并不在于要替代谁,而在于证明了另一条路径走通了:文本生成不一定非要逐字排队,并行扩散同样行得通——而且在本地硬件上,它还能走得更快。