第九便利

本地模型现在表现不错

2026年6月15日

自从本地模型问世以来，我一直在使用它们，而现在，它们终于变得出奇地好用了。

我有一台2022年的M2 Mac，配备64GB内存和1TB存储空间，我曾在各种不同的系统配置下使用过它们，比如：

本地模型现在发展到什么程度了？

早期，模型运行缓慢、难以使用，而且对于大多数编程任务来说准确度不高。本地模型严重落后的说法在很大程度上是真实的，直到对我来说GPT-OSS的发布。我对此没有具体的科学证据——我个人判断“一个模型是否足够好”的指标是“我是否还需要对照API模型进行复核”，而GPT-OSS是第一个让我开始减少这种复核的模型。

因此，我主要将本地模型用作快速、个性化的Google搜索，用于那些不需要最新信息的开发问题。

但随着Google在Gemma 4系列中的最新发布，我终于能够在本地进行智能体编码，并且循环工作的准确率/速度达到了前沿模型的约75%，这非常了不起。

到目前为止，我一直在使用gemma-4-26b-a4b的LM Studio实现作为我的默认本地模型。我已经使用这个本地设置完成了以下工作：将一个原本是笔记本的Python脚本重构为一个包含5-6个模块的仓库，对该模块进行lint检查以使用正确的泛型类型提示（大多数前沿模型现在会自动完成这个，但并非总是如此）。

我还用它校对了一些博客文章、编写了单元测试，并引导了一个仓库，该仓库搭建了一个用于推荐的双塔模型，只是为了看看智能体在空白状态下会做什么。以下是它生成的内容，虽然相当基础，但已经超出了我去年认为可能的范围：

请注意，环境是受限的，因为我将所有智能体工作流都运行在一个对执行权限有限的Docker容器中。

我还在构建一个应用，用于展示Arxiv论文中的热门话题。出于好奇，我让Pi浏览了我过去的LM Studio会话日志，并找出我使用LM Studio的目的：

毫不意外，因为我一直在研究Rijksearch，

这些都不是开创性的任务（再次强调，很多是个性化的Google/文档查询），处理这些任务确实让我的GPU和内存得到了锻炼，K-V缓存增长到了64GB内存。

但对我来说，更重要的是，这类任务，即使如此简单，在6个月前对本地模型来说还是不可能完成的。

Gemma-4-12b-qat刚刚发布，但它的性能相对于其规模已经给我留下了深刻印象。模型架构本身非常有趣，并提出了一系列有趣的问题，比如“如果我们受到性能和价格的限制，我们需要在架构上做出哪些权衡？”这个问题在疯狂的token淘金热中至今尚未被真正提出。

如今在本地运行智能体模型

但不要只听我的一面之词，你自己试试看！如果你想尝试运行本地智能体流程，你需要一个本地模型推理引擎、一个智能体框架，以及本地模型文件。你需要将框架配置指向你的本地推理端点，以及通过推理引擎提供服务的已下载模型文件。

对于我的本地设置，我目前使用Pi作为智能体框架，LM Studio作为推理服务器，尽管如果直接使用llama.cpp可能会更快——这是未来实验的一个潜在方向。

这篇关于使用Pi和LM Studio设置智能体编码的文章非常容易上手，尽管我对文章中的设置做了一些调整。

这是我的Docker Compose配置：

这是运行pi的bash脚本。

我构建Docker容器并在其自己的仓库中对文件进行修改。然后，我在正在工作的仓库中运行Pi，它会启动Docker，这样Pi就无法通过操作我的物理硬盘来擦除文件或目录。这也使得在容器中运行的Pi能够通过将自定义模型json配置传入容器来看到它。所有这些在我的实验中运行得相当不错。

本地模型仍然存在问题：推理可能很慢，上下文窗口很小且受限于你自己的硬件，生态系统虽然通过LM Studio和HuggingFace的“使用此模型”按钮等工具变得简单了许多，但早期版本仍会遭受提示模板不匹配的问题。不过，这些问题通常会被极快地修复。不用说，我不确定这已经准备好用于生产环境的软件开发。

但好处是众多的，而且投资于这个生态系统至关重要，尤其是在现在。本地模型的一个非常酷的地方是，你可以检查几乎所有东西，比如实时观察token推理过程，

以及观察token的输入/输出。

你可以做很多事情，比如更改本地上下文窗口并观察性能的提升或下降，真正深入了解你的token是如何在GPU上被处理的。你可以更改系统提示、量化级别。你可以让模型相互对抗。你还可以更改和检查框架端。

可能性是无限的，而且工具只会越来越好。

原文出处：https://vickiboykis.com/2026/06/15/running-local-models-is-good-now/

本地模型现在表现不错

本地模型现在表现不错

本地模型现在发展到什么程度了？

如今在本地运行智能体模型

zhirenhun

📌 相关推荐