首页 / 文章 / GLM-5.2 本地部署指南
← 返回
AI技术

GLM-5.2 本地部署指南

✍️ zhirenhun 📅 2026/6/23 👁 23 阅读 ⏱ 16 分钟
GLM-5.2 本地部署指南

GLM-5.2 本地部署指南

如需完整的文档索引,请参阅 llms.txt。本页面也提供 Markdown 版本。

运行 Z.ai 的全新 GLM-5.2 模型于本地硬件上!

GLM-5.2 是 Z.ai 的全新开源模型,在长周期代码、推理和 Agentic 任务中提供了 SOTA (State-of-the-Art) 性能。凭借 744B 参数、40B 活跃参数和 1M 上下文窗口,它现在可以使用 Unsloth Dynamic GGUFs 在本地运行。GLM-5.2 是迄今为止最强大的开源模型,在人工分析和许多其他基准测试中,其性能可与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 媲美。

完整的模型需要 1.51TB 的磁盘空间,而 Unsloth Dynamic 2-bit GGUF 通过将重要的层提升(upcasting)到 8 位或 16 位,将其减少到 239GB(尺寸减少 84%)。Dynamic 1-bit 进一步降低到 217GB(尺寸减少 86%)。感谢 Z.ai 给予 Unsloth 零日访问权限。GLM-5.2-GGUF

2-bit dynamic quant UD-IQ2_M 使用 239GB 的磁盘空间——这可以直接装入 256GB 统一内存的 Mac,并且在 1x24GB GPU 和 256GB RAM 配合 MoE offloading 时运行效果良好。1-bit 量化版本可装入 223GB RAM,而 8-bit 需要 810GB RAM。

表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)

1-bit 2-bit 3-bit 4-bit 5-bit 8-bit
223 GB 245 GB 290-360 GB 372-475 GB 570 GB 810 GB

为获得最佳性能,请确保您的总可用内存(包括 VRAM 和系统 RAM)比量化模型文件大小有充足的裕量。


推荐设置

GLM-5.2 有 3 种思考模式(thinking modes):非思考(Non-thinking)和思考(Thinking),其中思考模式分为高(High)和最大(Max)。对于复杂的任务,请使用 Max Thinking。在 Unsloth Studio 中,您可以通过 UI 轻松切换 High + Max Thinking 和 Non-Thinking 模式。

对于大多数用例,请使用以下设置:

默认设置 (大多数任务)

指标 SWE-Bench Pro 温度 (temperature) 1.0 top_p 0.95
最大上下文窗口 1,048,576

GLM 5.2 默认使用思考模式。它支持将 reasoning_effort 设置为 "high"、"max" 或禁用思考。要禁用思考,请使用 --chat-template-kwargs '{"enable_thinking":false}'

如果您在 Windows Powershell 上,请使用:--chat-template-kwargs "{"enable_thinking":false}"

您可以交替使用 'true' 和 'false'。您现在也可以在 llama.cpp 中使用 --reasoning on--reasoning off 了!


📈 量化分析

我们还运行了 KLD (KL Divergence) 来评估 GLM-5.2-GGUF 量化的准确性。总的来说,动态 4-bit UD-Q4_K_XL 和动态 5-bit UD-Q5_K_XL 通常是无损的,而更小的量化版本也表现出色!

在纯 Top-1% 准确率方面,动态 1-bit 获得了约 76.2% 的准确率,同时尺寸减少了 86%!动态 2-bit 获得了约 82% 的准确率,同时尺寸减少了 84%。

99.9% 的 KLD 通常也是一个很好的指标——尽管从 4-bit 开始会有更大的性能提升,因此对于大规模的分布外任务,动态 4-bit 可能是最佳选择。

平均 KLD 通常与磁盘空间呈清晰的单调趋势,即使在 1-bit 下,GLM 5.2 也能表现良好!


运行 GLM-5.2 教程

您现在可以在 llama.cpp 和 Unsloth Studio 中运行 GLM-5.2。为了在可访问性和准确性方面获得最佳结果,我们将利用 239GB 的 UD-IQ2_M 量化版本。


🦥 在 Unsloth Studio 中运行 GLM-5.2

GLM-5.2 可以在 Unsloth Studio 中运行,这是一个用于本地 AI 的开源 Web UI。Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。使用 Unsloth Studio,您可以在 MacOS、Windows、Linux 上本地运行模型,并且:

  1. 打开浏览器中的 http://127.0.0.1:8888(或您的特定 URL)。
  2. 使用 HTTPS 和 Cloudflare 安全地启动 Unsloth。

🎉 新功能! Unsloth 现在提供了一种通过免费 Cloudflare tunnel 通过 HTTPS 安全启动 Studio 的方式。请使用以下命令(适用于 Windows、Mac 和 Linux):

unsloth studio --port 8888

搜索和下载 GLM-5.2

Unsloth Studio 会自动卸载到 RAM 并检测多 GPU 设置。首次启动时,您需要创建一个密码来保护您的账户,并在稍后重新登录。然后转到 Studio Chat 标签页,在搜索栏中搜索 GLM-5.2,下载您所需的模型和量化版本。请确保您有足够的计算资源来运行模型。

运行 GLM-5.2

在使用 Unsloth Studio 时,推理参数应自动设置,但您仍然可以手动更改。您还可以编辑上下文长度、聊天模板和其他设置。对于本指南,我们将运行 UD-IQ2_M 量化版本,这至少需要 245GB RAM。请随意更改量化类型。对于这些教程,我们将使用 llama.cpp 进行快速本地推理。GGUF: GLM-5.2-GGUF

  1. 在 GitHub 上获取最新的 llama.cpp。您也可以遵循下面的构建说明。如果您没有 GPU 或只想进行 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF。对于 Apple Mac / Metal 设备,请设置 -DGGML_CUDA=OFF 然后继续正常操作——Metal 支持默认开启。
  2. 您现在可以直接使用 llama.cpp 来加载和下载模型,就像使用 ollama run 一样。首先,选择您想要的量化类型,例如 UD-IQ2_M。同时使用 export LLAMA_CACHE="unsloth/GLM-5.2-GGUF" 来强制 llama.cpp 保存到特定位置。请注意,此下载过程可能非常缓慢,因此最好在下一节中使用手动下载过程。
  3. 如果您想手动下载模型(速度快得多!),我们可以通过以下代码下载模型(在安装 pip install huggingface_hub 之后)。如果下载卡住,请参阅:Hugging Face Hub, XET debugging
  4. 如果您想使用动态 1-bit,请执行以下操作:
  5. # 1-bit download example
    pip install huggingface_hub
    huggingface-cli download unsloth/GLM-5.2-GGUF --local-dir ./GLM-5.2-UD-IQ1_S --local-dir-use-symlinks False
  6. 然后以对话模式运行模型。对于 2-bit,请使用 unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf;对于 1-bit,请使用 unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
  7. 当您启动 llama-cli 时,您将看到:
  8. $ llama-cli --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --ctx-size 1048576
  9. 然后提示它创建一个简短的 Flappy Bird 游戏,我们得到:
  10. > Prompt: Create a short Flappy Bird game.
    [... 模型输出 ...]
    

    Full game in HTML

    Full conversation

  11. 带有完整对话和游戏的演示如下:
  12. 完整游戏 (HTML) | 完整对话

    该游戏带有声音,运行得非常棒!提醒一下,这是一个 1-bit 量化版本,运行效果非常好!


📐 通过 KV Cache 量化实现长上下文

为了在 llama.cpp 中利用长上下文,我们需要采用 KV Cache quantization 来减少内存使用。最近,llama.cpp 为 KV Cache 量化增加了更高的准确性技巧——请参阅 [相关 PRs]!

目前支持以下 KV Cache dtypes:

  • 默认使用 f16
  • 如果您使用 q4_0(每个权重约 4.5 bits),您可以将上下文长度延长约 16 / 4.5 = 3.5 倍!因此,如果您的模型原本支持 10K,现在可以达到 35K!
  • q4_1 可能更好,因为它还提供了一个偏移参数(shifting parameter),并且是每个权重 5 bits——因此可以实现 3.2 倍的更长上下文。

使用方法如下:

# Example usage with q4_1
llama-cli --model  --ctx-size 1048576 --kv-cache-dtype q4_1

📊 基准测试 (Benchmarks)

您可以在下方表格中查看 GLM-5.2 的更多基准测试数据:

指标
SWE-Bench Pro [待补充]
HumanEval [待补充]

原文出处:Unsloth Docs: GLM-5.2 - How to Run Locally

🧑‍💻

zhirenhun

一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。

GLM-5.2 Unsloth 本地模型 GGUF 量化
← 上一篇
Moebius: 0.2B 轻量级图像修复框架,实现10B级别的性能
下一篇 →
提示注入的理论基础:角色混淆(Prompt Injection as Role Confusion)

📌 相关推荐

提示注入的理论基础:角色混淆(Prompt Injection as Role Confusion)
2026/6/23
Moebius: 0.2B 轻量级图像修复框架,实现10B级别的性能
2026/6/23
可销售软件的最小可行单元:AI 时代自建与购买的临界点
2026/6/22
← 返回文章列表