第九便利

Gemma 4 QAT 模型：优化模型压缩，提升移动端与笔记本电脑效率

2026年6月5日

我们全新版本的 Gemma 4 系列模型采用了量化感知训练（Quantization-Aware Training, QAT），大幅降低了内存需求，并在设备端实现了最佳性能表现。

Olivier Lacombe — Google DeepMind 产品管理总监
Omar Sanseviero — Google DeepMind 技术专家

引言

自两个月前发布 Gemma 4 以来，我们一直在持续扩展其能力。首先，我们引入了多 token 预测（Multi-Token Prediction, MTP）来加速推理；就在几天前，我们又发布了一款 12B 模型，填补了 E4B 和 26B MOE 模型之间的空白。

今天，我们发布了经过量化感知训练（QAT）优化的新 checkpoint，使 Gemma 4 更加高效，从而能够在日常边缘设备和消费级 GPU 上本地运行模型。

通过在训练过程中模拟量化（quantization），QAT 能够在模型被压缩时最大限度地减少质量损失。本次发布包括适用于主流 Q4_0 量化格式的 QAT checkpoint，以及一种专为移动端用例设计的新型量化格式。采用这种移动端格式，我们将 Gemma 4 E2B 模型的内存占用降至 1GB。这些优化共同大幅降低了内存需求，同时保留了您对 Gemma 4 所期望的能力和质量。

在保持模型质量的同时缩小体积

量化（Quantization）是一项在消费级硬件上运行模型的关键技术，通过减小内存占用同时加速解码速度来实现。然而，标准的训练后量化（Post-Training Quantization, PTQ）往往会导致性能下降。QAT 并非在训练结束后简单地量化模型，而是将量化过程直接整合到训练中。虽然 PTQ 在保持质量方面已经颇为有效，但我们的 QAT 成果相比标准 PTQ 基线，实现了更高的整体质量。

我们将这种 QAT 方案应用到了流行的 Q4_0 格式上，以最大化所有模型的性能。针对边缘模型（E2B 和 E4B），我们重新思考了量化的方法，设计了一种专门的移动端量化方案（mobile-specialized quantization schema）。

节省显存与存储空间

以下是加载模型所需的大致显存（VRAM）需求：

（此处为模型显存占用表格，请参考原文）

为移动设备深度优化

标准的压缩格式往往难以在移动处理器上高效运行。为了确保 Gemma 4 在移动设备上流畅运行，我们专门为边缘硬件设计了一套定制化的移动端量化方案：

静态激活（Static activations）：通常情况下，模型会浪费处理能力来实时计算数据缩放方式。我们在训练过程中预先计算了这些设置，从而减轻了移动芯片的运算负载，使响应速度更快。
逐通道量化（Channel-wise quantization）：我们重新组织了压缩数据的结构，使其适配移动端加速器的设计。这样手机可以直接进行原生计算，无需使用缓慢的变通方案。
定向 2-bit 量化（Targeted 2-bit quantization）：我们对模型中生成 token 的特定部分进行了重度压缩（至 2-bit），同时将核心推理层保持在较高精度。这样既节省了存储空间，又不会降低模型的智能水平。
嵌入层与 KV 缓存优化（Embedding and KV cache optimization）：我们将压缩重点放在模型的词表（vocabulary）和短期记忆（KV cache）上。这大幅降低了活跃内存占用，让您可以在长时间对话中不耗尽空间。

由于在许多使用场景中并不需要音频和视觉编码器，您还可以仅部署所需的模态（modality）来进一步优化内存占用。例如，Gemma 4 E2B 纯文本模型（不含逐层嵌入 Per-Layer Embeddings）的内存需求不到 1GB。

立即开始使用

为了让这些模型能够与您喜欢的工作流无缝配合，我们从今天起与生态系统中流行的开发者工具合作，全面支持 Gemma 4 QAT checkpoint：

下载权重：立即在 Hugging Face 上获取 Q4_0 和移动端模型权重。我们针对您的工作流定制了格式：GGUF 格式可直接与 llama.cpp 配合使用，压缩张量（compressed tensors）已为 vLLM 准备就绪。对于其他场景，我们提供未量化的 checkpoint，可自行转换和量化为支持 Q4_0 的格式。
集成与学习：探索我们的文档……

原文链接：https://blog.google/technology/developers/gemma-4-qat-models/

Gemma 4 QAT 模型：优化模型压缩，提升移动端与笔记本电脑效率

Gemma 4 QAT 模型：优化模型压缩，提升移动端与笔记本电脑效率

引言

在保持模型质量的同时缩小体积

节省显存与存储空间

为移动设备深度优化

立即开始使用

zhirenhun

📌 相关推荐