δ-mem：为大型语言模型打造的高效在线记忆管理方案

✍️ zhirenhun 📅 2026/5/17 👁 96 阅读 ⏱ 4 分钟

大型语言模型（LLM）在处理长上下文时面临一个根本性挑战：如何高效地管理和访问随着输入增长而膨胀的键值（KV）缓存。传统Transformer的自注意力机制需要存储所有历史token的Key和Value向量，导致显存占用随序列长度二次增长。尽管已有FlashAttention等硬件优化，但在超长序列（数万及以上token）的在线学习或推理场景中，简单的缓存策略依然不堪重负。

δ-mem提出了一种全新的在线记忆管理框架，专为LLM设计。其核心理念是“记忆应该是动态的、自适应的，而非静态的或随意的丢弃”。δ-mem并不试图保留所有历史信息，而是通过学习一个高效的“变化编码”来压缩和更新记忆。该名称中的“δ”（Delta）寓意只存储和更新相对变化量。

技术实现上，δ-mem包含三个核心组件：记忆编码器（Memory Encoder）、变化预测器（Change Predictor）和记忆合并器（Memory Merger）。记忆编码器将历史KV状态压缩为紧凑的潜在表示（类似记忆槽），每个槽位编码一段上下文的摘要信息。变化预测器则根据新输入的token预测哪些记忆槽需要更新——预测基于一个轻量级门控网络，输出每个槽的“更新概率”。最后，记忆合并器利用预测结果选择性更新记忆。这种设计使得总记忆槽数量固定（例如4096个），而与输入长度无关，从而将显存占用从二次降至线性。

更重要的是，δ-mem支持在线学习：在推理过程中，模型可以不断从新序列中学习并更新记忆编码器，以适应对话或文档的长期演变。例如，在阅读一本长篇小说的过程中，模型可以持续更新关于人物关系和情节的记忆，而不需要重头开始。实验表明，在128K token的长上下文基准测试（如RULER、LongBench）上，δ-mem仅使用1/10的显存即可达到与完整KV缓存相当的准确率，并在需要时延敏感的任务（如在线客服）中显著降低了首token推理时间。

此外，δ-mem还设计了一个可扩展的数学框架：通过将记忆更新建模为信息论中的“最小描述长度”（MDL）原则，确保最终记忆表示在信息保存和存储效率之间达到最优平衡。这一理论分析为实际参数选择提供了指导。

当然，δ-mem也存在一些局限性：对于极度需要精确召回的任务（如代码调试、法律条文查询），压缩记忆可能丢失细节。但团队指出，δ-mem可以与其他检索增强生成（RAG）系统结合，作为一种高效的“在线缓存层”，而RAG处理精确查询。这种混合架构可能代表长上下文LLM应用的实际落地方向。

总而言之，δ-mem巧妙地解决了困扰LLM社区已久的在线记忆管理难题。当我们可以将TLD; DR（太长不看）转化为“TL; LR”（太长，但只记住变化的），大模型处理无限长度上下文的大门就此开启。

——

原文出处：https://arxiv.org/abs/2605.12357

🧑‍💻