GLM-5.2 本地部署指南
如需完整的文档索引,请参阅 llms.txt。本页面也提供 Markdown 版本。
运行 Z.ai 的全新 GLM-5.2 模型于本地硬件上!
GLM-5.2 是 Z.ai 的全新开源模型,在长周期代码、推理和 Agentic 任务中提供了 SOTA (State-of-the-Art) 性能。凭借 744B 参数、40B 活跃参数和 1M 上下文窗口,它现在可以使用 Unsloth Dynamic GGUFs 在本地运行。GLM-5.2 是迄今为止最强大的开源模型,在人工分析和许多其他基准测试中,其性能可与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 媲美。
完整的模型需要 1.51TB 的磁盘空间,而 Unsloth Dynamic 2-bit GGUF 通过将重要的层提升(upcasting)到 8 位或 16 位,将其减少到 239GB(尺寸减少 84%)。Dynamic 1-bit 进一步降低到 217GB(尺寸减少 86%)。感谢 Z.ai 给予 Unsloth 零日访问权限。GLM-5.2-GGUF
2-bit dynamic quant UD-IQ2_M 使用 239GB 的磁盘空间——这可以直接装入 256GB 统一内存的 Mac,并且在 1x24GB GPU 和 256GB RAM 配合 MoE offloading 时运行效果良好。1-bit 量化版本可装入 223GB RAM,而 8-bit 需要 810GB RAM。
表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)
| 1-bit | 2-bit | 3-bit | 4-bit | 5-bit | 8-bit |
| 223 GB | 245 GB | 290-360 GB | 372-475 GB | 570 GB | 810 GB |
为获得最佳性能,请确保您的总可用内存(包括 VRAM 和系统 RAM)比量化模型文件大小有充足的裕量。
推荐设置
GLM-5.2 有 3 种思考模式(thinking modes):非思考(Non-thinking)和思考(Thinking),其中思考模式分为高(High)和最大(Max)。对于复杂的任务,请使用 Max Thinking。在 Unsloth Studio 中,您可以通过 UI 轻松切换 High + Max Thinking 和 Non-Thinking 模式。
对于大多数用例,请使用以下设置:
默认设置 (大多数任务)
| 指标 | SWE-Bench Pro | 温度 (temperature) | 1.0 | top_p | 0.95 |
| 最大上下文窗口 | 1,048,576 |
GLM 5.2 默认使用思考模式。它支持将 reasoning_effort 设置为 "high"、"max" 或禁用思考。要禁用思考,请使用 --chat-template-kwargs '{"enable_thinking":false}'。
如果您在 Windows Powershell 上,请使用:--chat-template-kwargs "{"enable_thinking":false}"
您可以交替使用 'true' 和 'false'。您现在也可以在 llama.cpp 中使用 --reasoning on 或 --reasoning off 了!
📈 量化分析
我们还运行了 KLD (KL Divergence) 来评估 GLM-5.2-GGUF 量化的准确性。总的来说,动态 4-bit UD-Q4_K_XL 和动态 5-bit UD-Q5_K_XL 通常是无损的,而更小的量化版本也表现出色!
在纯 Top-1% 准确率方面,动态 1-bit 获得了约 76.2% 的准确率,同时尺寸减少了 86%!动态 2-bit 获得了约 82% 的准确率,同时尺寸减少了 84%。
99.9% 的 KLD 通常也是一个很好的指标——尽管从 4-bit 开始会有更大的性能提升,因此对于大规模的分布外任务,动态 4-bit 可能是最佳选择。
平均 KLD 通常与磁盘空间呈清晰的单调趋势,即使在 1-bit 下,GLM 5.2 也能表现良好!
运行 GLM-5.2 教程
您现在可以在 llama.cpp 和 Unsloth Studio 中运行 GLM-5.2。为了在可访问性和准确性方面获得最佳结果,我们将利用 239GB 的 UD-IQ2_M 量化版本。
🦥 在 Unsloth Studio 中运行 GLM-5.2
GLM-5.2 可以在 Unsloth Studio 中运行,这是一个用于本地 AI 的开源 Web UI。Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。使用 Unsloth Studio,您可以在 MacOS、Windows、Linux 上本地运行模型,并且:
- 打开浏览器中的
http://127.0.0.1:8888(或您的特定 URL)。 - 使用 HTTPS 和 Cloudflare 安全地启动 Unsloth。
🎉 新功能! Unsloth 现在提供了一种通过免费 Cloudflare tunnel 通过 HTTPS 安全启动 Studio 的方式。请使用以下命令(适用于 Windows、Mac 和 Linux):
unsloth studio --port 8888
搜索和下载 GLM-5.2
Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。首次启动时,您需要创建一个密码来保护您的账户,并在稍后重新登录。然后转到 Studio Chat 标签页,在搜索栏中搜索 GLM-5.2,下载您所需的模型和量化版本。请确保您有足够的计算资源来运行模型。
运行 GLM-5.2
在使用 Unsloth Studio 时,推理参数应自动设置,但您仍然可以手动更改。您还可以编辑上下文长度、聊天模板和其他设置。对于本指南,我们将运行 UD-IQ2_M 量化版本,这至少需要 245GB RAM。请随意更改量化类型。对于这些教程,我们将使用 llama.cpp 进行快速本地推理。GGUF: GLM-5.2-GGUF
- 在 GitHub 上获取最新的
llama.cpp。您也可以遵循下面的构建说明。如果您没有 GPU 或只想进行 CPU 推理,请将-DGGML_CUDA=ON更改为-DGGML_CUDA=OFF。对于 Apple Mac / Metal 设备,请设置-DGGML_CUDA=OFF然后继续正常操作——Metal 支持默认开启。 - 您现在可以直接使用
llama.cpp来加载和下载模型,就像使用ollama run一样。首先,选择您想要的量化类型,例如 UD-IQ2_M。同时使用export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"来强制llama.cpp保存到特定位置。请注意,此下载过程可能非常缓慢,因此最好在下一节中使用手动下载过程。 - 如果您想手动下载模型(速度快得多!),我们可以通过以下代码下载模型(在安装
pip install huggingface_hub之后)。如果下载卡住,请参阅:Hugging Face Hub, XET debugging。 - 如果您想使用动态 1-bit,请执行以下操作:
- 然后以对话模式运行模型。对于 2-bit,请使用
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf;对于 1-bit,请使用unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf。 - 当您启动
llama-cli时,您将看到: - 然后提示它创建一个简短的 Flappy Bird 游戏,我们得到:
- 带有完整对话和游戏的演示如下:
# 1-bit download example
pip install huggingface_hub
huggingface-cli download unsloth/GLM-5.2-GGUF --local-dir ./GLM-5.2-UD-IQ1_S --local-dir-use-symlinks False
$ llama-cli --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --ctx-size 1048576
> Prompt: Create a short Flappy Bird game.
[... 模型输出 ...]
Full game in HTML
Full conversation
完整游戏 (HTML) | 完整对话
该游戏带有声音,运行得非常棒!提醒一下,这是一个 1-bit 量化版本,运行效果非常好!
📐 通过 KV Cache 量化实现长上下文
为了在 llama.cpp 中利用长上下文,我们需要采用 KV Cache quantization 来减少内存使用。最近,llama.cpp 为 KV Cache 量化增加了更高的准确性技巧——请参阅 [相关 PRs]!
目前支持以下 KV Cache dtypes:
- 默认使用
f16。 - 如果您使用
q4_0(每个权重约 4.5 bits),您可以将上下文长度延长约 16 / 4.5 = 3.5 倍!因此,如果您的模型原本支持 10K,现在可以达到 35K! q4_1可能更好,因为它还提供了一个偏移参数(shifting parameter),并且是每个权重 5 bits——因此可以实现 3.2 倍的更长上下文。
使用方法如下:
# Example usage with q4_1
llama-cli --model --ctx-size 1048576 --kv-cache-dtype q4_1
📊 基准测试 (Benchmarks)
您可以在下方表格中查看 GLM-5.2 的更多基准测试数据:
| 指标 | 值 |
| SWE-Bench Pro | [待补充] |
| HumanEval | [待补充] |