首页 / 文章 / 本地模型现在表现不错
← 返回
AI技术

本地模型现在表现不错

✍️ zhirenhun 📅 2026/6/17 👁 38 阅读 ⏱ 7 分钟
本地模型现在表现不错

本地模型现在表现不错

2026年6月15日

自从本地模型问世以来,我一直在使用它们,而现在,它们终于变得出奇地好用了。

我有一台2022年的M2 Mac,配备64GB内存和1TB存储空间,我曾在各种不同的系统配置下使用过它们,比如:

本地模型现在发展到什么程度了?

早期,模型运行缓慢、难以使用,而且对于大多数编程任务来说准确度不高。本地模型严重落后的说法在很大程度上是真实的,直到对我来说GPT-OSS的发布。我对此没有具体的科学证据——我个人判断“一个模型是否足够好”的指标是“我是否还需要对照API模型进行复核”,而GPT-OSS是第一个让我开始减少这种复核的模型。

因此,我主要将本地模型用作快速、个性化的Google搜索,用于那些不需要最新信息的开发问题。

但随着Google在Gemma 4系列中的最新发布,我终于能够在本地进行智能体编码,并且循环工作的准确率/速度达到了前沿模型的约75%,这非常了不起。

到目前为止,我一直在使用gemma-4-26b-a4b的LM Studio实现作为我的默认本地模型。我已经使用这个本地设置完成了以下工作:将一个原本是笔记本的Python脚本重构为一个包含5-6个模块的仓库,对该模块进行lint检查以使用正确的泛型类型提示(大多数前沿模型现在会自动完成这个,但并非总是如此)。

我还用它校对了一些博客文章、编写了单元测试,并引导了一个仓库,该仓库搭建了一个用于推荐的双塔模型,只是为了看看智能体在空白状态下会做什么。以下是它生成的内容,虽然相当基础,但已经超出了我去年认为可能的范围:

请注意,环境是受限的,因为我将所有智能体工作流都运行在一个对执行权限有限的Docker容器中。

我还在构建一个应用,用于展示Arxiv论文中的热门话题。出于好奇,我让Pi浏览了我过去的LM Studio会话日志,并找出我使用LM Studio的目的:

毫不意外,因为我一直在研究Rijksearch,

这些都不是开创性的任务(再次强调,很多是个性化的Google/文档查询),处理这些任务确实让我的GPU和内存得到了锻炼,K-V缓存增长到了64GB内存。

但对我来说,更重要的是,这类任务,即使如此简单,在6个月前对本地模型来说还是不可能完成的。

Gemma-4-12b-qat刚刚发布,但它的性能相对于其规模已经给我留下了深刻印象。模型架构本身非常有趣,并提出了一系列有趣的问题,比如“如果我们受到性能和价格的限制,我们需要在架构上做出哪些权衡?”这个问题在疯狂的token淘金热中至今尚未被真正提出。

如今在本地运行智能体模型

但不要只听我的一面之词,你自己试试看!如果你想尝试运行本地智能体流程,你需要一个本地模型推理引擎、一个智能体框架,以及本地模型文件。你需要将框架配置指向你的本地推理端点,以及通过推理引擎提供服务的已下载模型文件。

对于我的本地设置,我目前使用Pi作为智能体框架,LM Studio作为推理服务器,尽管如果直接使用llama.cpp可能会更快——这是未来实验的一个潜在方向。

这篇关于使用Pi和LM Studio设置智能体编码的文章非常容易上手,尽管我对文章中的设置做了一些调整。

这是我的Docker Compose配置:

这是运行pi的bash脚本。

我构建Docker容器并在其自己的仓库中对文件进行修改。然后,我在正在工作的仓库中运行Pi,它会启动Docker,这样Pi就无法通过操作我的物理硬盘来擦除文件或目录。这也使得在容器中运行的Pi能够通过将自定义模型json配置传入容器来看到它。所有这些在我的实验中运行得相当不错。

本地模型仍然存在问题:推理可能很慢,上下文窗口很小且受限于你自己的硬件,生态系统虽然通过LM Studio和HuggingFace的“使用此模型”按钮等工具变得简单了许多,但早期版本仍会遭受提示模板不匹配的问题。不过,这些问题通常会被极快地修复。不用说,我不确定这已经准备好用于生产环境的软件开发。

但好处是众多的,而且投资于这个生态系统至关重要,尤其是在现在。本地模型的一个非常酷的地方是,你可以检查几乎所有东西,比如实时观察token推理过程,

以及观察token的输入/输出。

你可以做很多事情,比如更改本地上下文窗口并观察性能的提升或下降,真正深入了解你的token是如何在GPU上被处理的。你可以更改系统提示、量化级别。你可以让模型相互对抗。你还可以更改和检查框架端。

可能性是无限的,而且工具只会越来越好。


原文出处:https://vickiboykis.com/2026/06/15/running-local-models-is-good-now/

🧑‍💻

zhirenhun

一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。

本地模型 AI LLM Gemma
← 上一篇
裸机启动 Linux:不到一秒启动一个单进程内核
下一篇 →
羞辱IIS服务器:有趣但可能面临牢狱之灾

📌 相关推荐

📄
Rhombus 1.0 正式发布
2026/6/24
📄
艾尔登法环的低技术AI
2026/6/24
提示注入的理论基础:角色混淆(Prompt Injection as Role Confusion)
2026/6/23
← 返回文章列表