第九便利

GLM-5.2 本地部署指南

如需完整的文档索引，请参阅 llms.txt。本页面也提供 Markdown 版本。

运行 Z.ai 的全新 GLM-5.2 模型于本地硬件上！

GLM-5.2 是 Z.ai 的全新开源模型，在长周期代码、推理和 Agentic 任务中提供了 SOTA (State-of-the-Art) 性能。凭借 744B 参数、40B 活跃参数和 1M 上下文窗口，它现在可以使用 Unsloth Dynamic GGUFs 在本地运行。GLM-5.2 是迄今为止最强大的开源模型，在人工分析和许多其他基准测试中，其性能可与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 媲美。

完整的模型需要 1.51TB 的磁盘空间，而 Unsloth Dynamic 2-bit GGUF 通过将重要的层提升（upcasting）到 8 位或 16 位，将其减少到 239GB（尺寸减少 84%）。Dynamic 1-bit 进一步降低到 217GB（尺寸减少 86%）。感谢 Z.ai 给予 Unsloth 零日访问权限。GLM-5.2-GGUF

2-bit dynamic quant UD-IQ2_M 使用 239GB 的磁盘空间——这可以直接装入 256GB 统一内存的 Mac，并且在 1x24GB GPU 和 256GB RAM 配合 MoE offloading 时运行效果良好。1-bit 量化版本可装入 223GB RAM，而 8-bit 需要 810GB RAM。

表：推理硬件要求 (单位 = 总内存：RAM + VRAM，或统一内存)

1-bit	2-bit	3-bit	4-bit	5-bit	8-bit
223 GB	245 GB	290-360 GB	372-475 GB	570 GB	810 GB

为获得最佳性能，请确保您的总可用内存（包括 VRAM 和系统 RAM）比量化模型文件大小有充足的裕量。

📈 量化分析

我们还运行了 KLD (KL Divergence) 来评估 GLM-5.2-GGUF 量化的准确性。总的来说，动态 4-bit UD-Q4_K_XL 和动态 5-bit UD-Q5_K_XL 通常是无损的，而更小的量化版本也表现出色！

在纯 Top-1% 准确率方面，动态 1-bit 获得了约 76.2% 的准确率，同时尺寸减少了 86%！动态 2-bit 获得了约 82% 的准确率，同时尺寸减少了 84%。

99.9% 的 KLD 通常也是一个很好的指标——尽管从 4-bit 开始会有更大的性能提升，因此对于大规模的分布外任务，动态 4-bit 可能是最佳选择。

平均 KLD 通常与磁盘空间呈清晰的单调趋势，即使在 1-bit 下，GLM 5.2 也能表现良好！

运行 GLM-5.2 教程

您现在可以在 llama.cpp 和 Unsloth Studio 中运行 GLM-5.2。为了在可访问性和准确性方面获得最佳结果，我们将利用 239GB 的 UD-IQ2_M 量化版本。

🦥 在 Unsloth Studio 中运行 GLM-5.2

GLM-5.2 可以在 Unsloth Studio 中运行，这是一个用于本地 AI 的开源 Web UI。Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。使用 Unsloth Studio，您可以在 MacOS、Windows、Linux 上本地运行模型，并且：

打开浏览器中的 http://127.0.0.1:8888（或您的特定 URL）。
使用 HTTPS 和 Cloudflare 安全地启动 Unsloth。

🎉 新功能！ Unsloth 现在提供了一种通过免费 Cloudflare tunnel 通过 HTTPS 安全启动 Studio 的方式。请使用以下命令（适用于 Windows、Mac 和 Linux）：

unsloth studio --port 8888

搜索和下载 GLM-5.2

Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。首次启动时，您需要创建一个密码来保护您的账户，并在稍后重新登录。然后转到 Studio Chat 标签页，在搜索栏中搜索 GLM-5.2，下载您所需的模型和量化版本。请确保您有足够的计算资源来运行模型。

运行 GLM-5.2

在使用 Unsloth Studio 时，推理参数应自动设置，但您仍然可以手动更改。您还可以编辑上下文长度、聊天模板和其他设置。对于本指南，我们将运行 UD-IQ2_M 量化版本，这至少需要 245GB RAM。请随意更改量化类型。对于这些教程，我们将使用 llama.cpp 进行快速本地推理。GGUF: GLM-5.2-GGUF

在 GitHub 上获取最新的 llama.cpp。您也可以遵循下面的构建说明。如果您没有 GPU 或只想进行 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF。对于 Apple Mac / Metal 设备，请设置 -DGGML_CUDA=OFF 然后继续正常操作——Metal 支持默认开启。
您现在可以直接使用 llama.cpp 来加载和下载模型，就像使用 ollama run 一样。首先，选择您想要的量化类型，例如 UD-IQ2_M。同时使用 export LLAMA_CACHE="unsloth/GLM-5.2-GGUF" 来强制 llama.cpp 保存到特定位置。请注意，此下载过程可能非常缓慢，因此最好在下一节中使用手动下载过程。
如果您想手动下载模型（速度快得多！），我们可以通过以下代码下载模型（在安装 pip install huggingface_hub 之后）。如果下载卡住，请参阅：Hugging Face Hub, XET debugging。
如果您想使用动态 1-bit，请执行以下操作：

# 1-bit download example
pip install huggingface_hub
huggingface-cli download unsloth/GLM-5.2-GGUF --local-dir ./GLM-5.2-UD-IQ1_S --local-dir-use-symlinks False

然后以对话模式运行模型。对于 2-bit，请使用 unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf；对于 1-bit，请使用 unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf。
当您启动 llama-cli 时，您将看到：

$ llama-cli --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --ctx-size 1048576

然后提示它创建一个简短的 Flappy Bird 游戏，我们得到：

> Prompt: Create a short Flappy Bird game.
[... 模型输出 ...]

    Full game in HTML
    Full conversation

带有完整对话和游戏的演示如下：

完整游戏 (HTML) | 完整对话

该游戏带有声音，运行得非常棒！提醒一下，这是一个 1-bit 量化版本，运行效果非常好！

📐 通过 KV Cache 量化实现长上下文

为了在 llama.cpp 中利用长上下文，我们需要采用 KV Cache quantization 来减少内存使用。最近，llama.cpp 为 KV Cache 量化增加了更高的准确性技巧——请参阅 [相关 PRs]！

目前支持以下 KV Cache dtypes：

默认使用 f16。
如果您使用 q4_0（每个权重约 4.5 bits），您可以将上下文长度延长约 16 / 4.5 = 3.5 倍！因此，如果您的模型原本支持 10K，现在可以达到 35K！
q4_1 可能更好，因为它还提供了一个偏移参数（shifting parameter），并且是每个权重 5 bits——因此可以实现 3.2 倍的更长上下文。

使用方法如下：

# Example usage with q4_1
llama-cli --model  --ctx-size 1048576 --kv-cache-dtype q4_1

📊 基准测试 (Benchmarks)

您可以在下方表格中查看 GLM-5.2 的更多基准测试数据：

指标	值
SWE-Bench Pro	[待补充]
HumanEval	[待补充]

原文出处：Unsloth Docs: GLM-5.2 - How to Run Locally

指标	SWE-Bench Pro	温度 (temperature)	1.0	top_p	0.95
最大上下文窗口	1,048,576

GLM-5.2 本地部署指南

GLM-5.2 本地部署指南

推荐设置

📈 量化分析

运行 GLM-5.2 教程

🦥 在 Unsloth Studio 中运行 GLM-5.2

📐 通过 KV Cache 量化实现长上下文

📊 基准测试 (Benchmarks)

zhirenhun

📌 相关推荐