Gemma 4 QAT 模型现已推出: 支持日常端侧设备与消费级 GPU 本地流畅运行
自 Gemma 4 系列模型发布以来,Google DeepMind 团队一直在围绕“效率”做文章。从上个月引入的多Token预测(MTP)来加速推理,到后来补全的12B模型,现在,他们又放出了一个大招:正式发布了经过量化感知训练(QAT)的全新检查点。
简单来说,这层操作的核心意图很明确:让你手头的消费级显卡,甚至是你口袋里的手机,也能流畅跑起 Gemma 4 这样的大模型。本地化AI的价值不用多言——数据安全、低延迟、离线可用,这些都是硬需求。
在介绍具体方案之前,有两个关键点值得先拿出来:一是 Gemini 团队解决了模型压缩中最头疼的精度损失问题;二是专为移动端设计的量化方案,能把 E2B 模型的内存占用压到1GB以内。这可不是甩个口号,背后有一套完整的技术逻辑。
缩小体积,但不牺牲品质
量化这件事,是让模型能在消费级硬件上运行的前置条件。它能降显存、降内存,还能加速解码。但传统的训练后量化(PTQ)有个通病:会引入性能退化。QAT不一样的地方在于,它把量化这个动作直接融进了训练过程中。打个比方,不是考完试再给你改卷子,而是边学边适应。研究结果也证实,经过QAT优化的模型,整体质量明显优于用标准PTQ压出来的版本。
这个 QAT 方案首先被应用到了目前最主流的 Q4_0 格式上,效果立竿见影。而对于端侧模型(E2B 和 E4B),他们则专门定制了一套全新的量化方案,这才是真正的重头戏。
实实在在的内存节省
下图是一张各模型加载所需显存/内存的近似需求列表。数据非常直观:同样是 E2B,用 Q4_0 格式需要约 2GB,而采用移动端量化方案后,直接降到不到 1GB。差距就是这么大。
移动端设备:这才是真正的硬骨头
标准压缩格式在移动端芯片上往往跑不动、跑不快。为了保证顺畅运行,这套移动端量化方案做了几个非常务实的底层优化:
- :通常模型需要实时计算如何缩放数据,很费算力。现在把这些计算提前到训练阶段搞定,手机端只需直接调用,响应自然快了。
静态激活
- :把压缩后数据的结构,设计成能契合手机端翻跟斗的原生计算方式,绕过了折中方案带来的性能损耗。
逐通道量化
- :对模型里负责生成Token的关键部分下手,大幅压缩到2-bit,但推理层保持高精度。用大白话说,“聪明的脑子”保持高配,“体力活”部分能省就省,模型聪明劲儿没丢,存储空间却省了不少。
定向2-bit量化
- :针对模型的词汇表和短期记忆部分做了重点压缩,直接拉低活动内存的占用。这意味着你进行长对话时,手机不会因为内存紧张而卡顿或闪退。
Embedding与KV缓存优化
有意思的是,很多实际场景里并不需要音频和视觉编码器。所以,只要按需部署文本版 E2B 模型(去掉逐层嵌入),内存占用就能稳稳控制在 1GB 以下。
为了让开发者能快速将这套能力集成到自己的工作流中,Google 已经和主流工具生态打好了配合。目前,Q4_0 和移动端的模型权重已经可以在 Hugging Face 上直接获取,并针对 GGUF、vLLM 等格式做了适配。如果你想在桌面端本地体验,llama.cpp、Ollama、LM Studio 这些工具都现成可用;如果要往设备端部署,可以用 LightRT-LM 运行时或者 Transformers.js 直接跑在浏览器里。对于更大规模的模型,SGLang 和 vLLM 提供了高效托管方案;苹果芯片用户可以用 MLX 优化;而 Unsloth 也支持直接对 QAT 检查点进行微调。
这一整套方案下来,已经不再是“能不能跑”的问题,而是“如何跑得更好”的问题。本地运行大模型这件事,正在从“实验室演示”走向“日常可用”。这是我们每一位 AI 应用开发者值得跟进的技术方向。