大型语言模型(LLM)在处理长上下文时面临一个根本性挑战:如何高效地管理和访问随着输入增长而膨胀的键值(KV)缓存。传统Transformer的自注意力机制需要存储所有历史token的Key和Value向量,导致显存占用随序列长度二次增长。尽管已有FlashAttention等硬件优化,但在超长序列(数万及以上token)的在线学习或推理场景中,简单的缓存策略依然不堪重负。
δ-mem提出了一种全新的在线记忆管理框架,专为LLM设计。其核心理念是“记忆应该是动态的、自适应的,而非静态的或随意的丢弃”。δ-mem并不试图保留所有历史信息,而是通过学习一个高效的“变化编码”来压缩和更新记忆。该名称中的“δ”(Delta)寓意只存储和更新相对变化量。
技术实现上,δ-mem包含三个核心组件:记忆编码器(Memory Encoder)、变化预测器(Change Predictor)和记忆合并器(Memory Merger)。记忆编码器将历史KV状态压缩为紧凑的潜在表示(类似记忆槽),每个槽位编码一段上下文的摘要信息。变化预测器则根据新输入的token预测哪些记忆槽需要更新——预测基于一个轻量级门控网络,输出每个槽的“更新概率”。最后,记忆合并器利用预测结果选择性更新记忆。这种设计使得总记忆槽数量固定(例如4096个),而与输入长度无关,从而将显存占用从二次降至线性。
更重要的是,δ-mem支持在线学习:在推理过程中,模型可以不断从新序列中学习并更新记忆编码器,以适应对话或文档的长期演变。例如,在阅读一本长篇小说的过程中,模型可以持续更新关于人物关系和情节的记忆,而不需要重头开始。实验表明,在128K token的长上下文基准测试(如RULER、LongBench)上,δ-mem仅使用1/10的显存即可达到与完整KV缓存相当的准确率,并在需要时延敏感的任务(如在线客服)中显著降低了首token推理时间。
此外,δ-mem还设计了一个可扩展的数学框架:通过将记忆更新建模为信息论中的“最小描述长度”(MDL)原则,确保最终记忆表示在信息保存和存储效率之间达到最优平衡。这一理论分析为实际参数选择提供了指导。
当然,δ-mem也存在一些局限性:对于极度需要精确召回的任务(如代码调试、法律条文查询),压缩记忆可能丢失细节。但团队指出,δ-mem可以与其他检索增强生成(RAG)系统结合,作为一种高效的“在线缓存层”,而RAG处理精确查询。这种混合架构可能代表长上下文LLM应用的实际落地方向。
总而言之,δ-mem巧妙地解决了困扰LLM社区已久的在线记忆管理难题。当我们可以将TLD; DR(太长不看)转化为“TL; LR”(太长,但只记住变化的),大模型处理无限长度上下文的大门就此开启。
——
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。