首页 / 文章 / Gemma 4 QAT 模型:优化模型压缩,提升移动端与笔记本电脑效率
← 返回
AI技术

Gemma 4 QAT 模型:优化模型压缩,提升移动端与笔记本电脑效率

✍️ zhirenhun 📅 2026/6/6 👁 87 阅读 ⏱ 7 分钟
Gemma 4 QAT 模型:优化模型压缩,提升移动端与笔记本电脑效率

Gemma 4 QAT 模型:优化模型压缩,提升移动端与笔记本电脑效率

2026年6月5日

我们全新版本的 Gemma 4 系列模型采用了量化感知训练(Quantization-Aware Training, QAT),大幅降低了内存需求,并在设备端实现了最佳性能表现。

Olivier Lacombe — Google DeepMind 产品管理总监
Omar Sanseviero — Google DeepMind 技术专家

引言

自两个月前发布 Gemma 4 以来,我们一直在持续扩展其能力。首先,我们引入了多 token 预测(Multi-Token Prediction, MTP)来加速推理;就在几天前,我们又发布了一款 12B 模型,填补了 E4B 和 26B MOE 模型之间的空白。

今天,我们发布了经过量化感知训练(QAT)优化的新 checkpoint,使 Gemma 4 更加高效,从而能够在日常边缘设备和消费级 GPU 上本地运行模型。

通过在训练过程中模拟量化(quantization),QAT 能够在模型被压缩时最大限度地减少质量损失。本次发布包括适用于主流 Q4_0 量化格式的 QAT checkpoint,以及一种专为移动端用例设计的新型量化格式。采用这种移动端格式,我们将 Gemma 4 E2B 模型的内存占用降至 1GB。这些优化共同大幅降低了内存需求,同时保留了您对 Gemma 4 所期望的能力和质量。

在保持模型质量的同时缩小体积

量化(Quantization)是一项在消费级硬件上运行模型的关键技术,通过减小内存占用同时加速解码速度来实现。然而,标准的训练后量化(Post-Training Quantization, PTQ)往往会导致性能下降。QAT 并非在训练结束后简单地量化模型,而是将量化过程直接整合到训练中。虽然 PTQ 在保持质量方面已经颇为有效,但我们的 QAT 成果相比标准 PTQ 基线,实现了更高的整体质量。

我们将这种 QAT 方案应用到了流行的 Q4_0 格式上,以最大化所有模型的性能。针对边缘模型(E2B 和 E4B),我们重新思考了量化的方法,设计了一种专门的移动端量化方案(mobile-specialized quantization schema)。

节省显存与存储空间

以下是加载模型所需的大致显存(VRAM)需求:

(此处为模型显存占用表格,请参考原文)

为移动设备深度优化

标准的压缩格式往往难以在移动处理器上高效运行。为了确保 Gemma 4 在移动设备上流畅运行,我们专门为边缘硬件设计了一套定制化的移动端量化方案:

  • 静态激活(Static activations):通常情况下,模型会浪费处理能力来实时计算数据缩放方式。我们在训练过程中预先计算了这些设置,从而减轻了移动芯片的运算负载,使响应速度更快。
  • 逐通道量化(Channel-wise quantization):我们重新组织了压缩数据的结构,使其适配移动端加速器的设计。这样手机可以直接进行原生计算,无需使用缓慢的变通方案。
  • 定向 2-bit 量化(Targeted 2-bit quantization):我们对模型中生成 token 的特定部分进行了重度压缩(至 2-bit),同时将核心推理层保持在较高精度。这样既节省了存储空间,又不会降低模型的智能水平。
  • 嵌入层与 KV 缓存优化(Embedding and KV cache optimization):我们将压缩重点放在模型的词表(vocabulary)和短期记忆(KV cache)上。这大幅降低了活跃内存占用,让您可以在长时间对话中不耗尽空间。

由于在许多使用场景中并不需要音频和视觉编码器,您还可以仅部署所需的模态(modality)来进一步优化内存占用。例如,Gemma 4 E2B 纯文本模型(不含逐层嵌入 Per-Layer Embeddings)的内存需求不到 1GB

立即开始使用

为了让这些模型能够与您喜欢的工作流无缝配合,我们从今天起与生态系统中流行的开发者工具合作,全面支持 Gemma 4 QAT checkpoint:

  • 下载权重:立即在 Hugging Face 上获取 Q4_0 和移动端模型权重。我们针对您的工作流定制了格式:GGUF 格式可直接与 llama.cpp 配合使用,压缩张量(compressed tensors)已为 vLLM 准备就绪。对于其他场景,我们提供未量化的 checkpoint,可自行转换和量化为支持 Q4_0 的格式。
  • 集成与学习:探索我们的文档……

原文链接:https://blog.google/technology/developers/gemma-4-qat-models/

——

🧑‍💻

zhirenhun

一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。

← 上一篇
ScreenAI:用于UI和信息图表理解的视觉语言模型
下一篇 →
rsync Claude 辅助开发争议数据分析报告

📌 相关推荐

提示注入的理论基础:角色混淆(Prompt Injection as Role Confusion)
2026/6/23
GLM-5.2 本地部署指南
2026/6/23
Moebius: 0.2B 轻量级图像修复框架,实现10B级别的性能
2026/6/23
← 返回文章列表