δ-mem:面向大型语言模型的高效在线记忆
Jingdi Lei†1,3, Di Zhang†2,3, Junxian Li4, Weida Wang2, Kaixuan Fan5,3, Xiang Liu6,3, Qihan Liu3,
Xiaoteng Ma3, Baian Chen3, Soujanya Poria1
1南洋理工大学,2复旦大学,3Mind Lab,4上海交通大学,5香港中文大学,6香港科技大学(广州)
大型语言模型在长期助手和智能体系统中越来越需要积累和重用历史信息。简单地扩展上下文窗口成本高昂,且往往无法确保有效的上下文利用。我们提出 δ-mem,一种轻量级记忆机制,它通过一个紧凑的联想记忆在线状态来增强冻结的全注意力骨干网络。δ-mem 将过去的信息压缩成一个固定大小的状态矩阵,该矩阵通过 delta 规则学习进行更新,并在生成过程中利用其读出结果生成对骨干网络注意力计算的低秩修正。仅使用 8 × 8 的在线记忆状态,δ-mem 就将平均得分提升至冻结骨干网络的 1.10 倍,以及最强非 δ-mem 记忆基线的 1.15 倍。它在记忆密集型基准测试上取得了更大的收益,在 MemoryAgentBench 上达到 1.31 倍,在 LoCoMo 上达到 1.20 倍,同时很大程度上保留了通用能力。这些结果表明,通过一个与注意力计算直接耦合的紧凑在线状态,无需完全微调、替换骨干网络或显式扩展上下文,即可实现有效的记忆。
§ Github: Declare-lab & MindLab-Research
通讯作者:Jingdi Lei, Di Zhang, Soujanya Poria
z 日期:2026年5月13日
1 引言
随着大型语言模型(LLMs)越来越多地部署在需要持续交互的记忆密集型场景中,例如长期个性化助手(Packer et al., 2023; Jiang et al., 2025)和长周期智能体系统(Yao et al., 2022; OpenAI, 2026; Anthropic, 2026),它们的生命周期必须超越对孤立提示的响应,而是要在扩展的记忆密集型任务中积累、更新和重用历史信息(Yao et al., 2022; Shinn et al., 2023; Packer et al., 2023; Wang and Chen, 2025; Zhang et al., 2025b)。在这些设置中,模型性能不仅取决于理解当前输入,还取决于在测试时有效利用相关的过去上下文(Laban et al., 2025; Zhong et al., 2024)。一种直观的方法是简单地扩展输入上下文并保留更多的交互历史。然而,这种策略仅仅将记忆问题简化为一个长上下文处理问题,这既计算成本高昂,又越来越难以驾驭。一方面,标准注意力机制的计算成本随上下文长度呈二次方增长(Yuan et al., 2025; Lei et al., 2025; Team et al., 2025)。另一方面,简单地增加上下文窗口并不能保证有效利用额外信息,因为当上下文变得非常长时,模型通常会遭受上下文退化或上下文腐烂(Hong et al., 2025; Du et al., 2025),这表明即使是百万级别的上下文窗口(OpenAI; Google)也无法从根本上解决记忆问题。这些局限性要求更先进的记忆机制(MMs),能够在给定的上下文窗口内更紧凑地表示历史信息,在交互过程中动态维护它,并在测试时使骨干模型能够有效利用它(Zhong et al., 2024; Packer et al., 2023; Wang et al., 2023; Wang and Chen, 2025; Behrouz et al., 2024; Wang et al., 2025; Zhang et al., 2025b)。
从统一的角度来看,现有的记忆机制可以在给定的上下文窗口下沿两个维度进行刻画:记忆状态,它定义了历史信息如何存储;以及记忆引导,它决定了存储的信息如何影响骨干网络的推理。在此框架下,先前的方法分为三种范式。文本记忆机制(TMMs)(Packer et al., 2023; Zhong et al., 2024; Pan et al., 2024; Borgeaud et al., 2022; Chhikara et al., 2025)将记忆存储为文本,并通过输入上下文注入,提供了灵活性而无需架构更改,但受限于上下文窗口限制、检索噪声和不可避免的压缩损失。外部通道记忆机制(OMMs)(Wu et al., 2022; Wang et al., 2023; Wei et al., 2026)将记忆保存在外部模块中,并通过外部路径上的检索或编码与骨干网络交互,实现了模块化,但引入了开销、集成复杂性以及与骨干网络潜在的错位。参数化记忆机制(PMMs)(Hu et al., 2022; Li and Liang, 2021; Meng et al., 2022a,b)将记忆编码到前缀或适配器的参数中,使其高效且与冻结的骨干网络兼容,但其静态性质限制了其对动态演化信息的适应能力。综合来看,这些局限性表明需要一种记忆机制,它能够维护一个紧凑且动态演化的记忆状态,同时通过一条与其内部注意力计算紧密对齐的路径来引导骨干网络。
基于这一动机,我们提出了 δ-mem,一种记忆机制,它在冻结的全注意力骨干网络旁维护一个紧凑且动态更新的记忆。δ-mem 并非将所有历史令牌存储在输入上下文中,而是将过去的信息压缩成一个联想记忆的在线状态(OSAM)。该状态通过 delta 规则学习随着新令牌的到来而持续更新,允许模型以联想记忆的固定大小矩阵表示来维护有用的历史信息。在生成过程中,δ-mem 不仅仅从记忆中检索文本。相反,当前输入查询在线状态以提取与上下文相关的联想记忆信号,然后这些信号被转换为对骨干网络注意力组件的低秩修正。通过这种方式,联想记忆直接参与骨干网络的前向计算,同时保持骨干网络冻结。在线状态在每次交互后进一步更新,使 δ-mem 能够随时间演化其联想记忆。
最后,我们在记忆密集型基准测试上评估了 δ-mem,包括 HotpotQA(Yang et al., 2018)、LoCoMo(Maharana et al., 2024)和 MemoryAgentBench(Hu et al., 2025),以及通用能力基准测试 IFEval(Zhou et al., 2023)和 GPQA-Diamond(Rein et al., 2023)。仅使用一个固定的 8 × 8 联想记忆在线状态,δ-mem 就将最终平均得分比冻结骨干网络提高了 1.10 倍,并比最强的非 δ-mem 记忆基线高出 1.15 倍。在记忆密集型任务上,改进更大:MemoryAgentBench 提升超过 1.31 倍,LoCoMo 提升超过 1.20 倍,TTL 子任务几乎翻倍,从 26.14 提升到 50.50。这些结果表明,一个紧凑的在线状态,当与注意力计算直接耦合时,可以提供有效的联想记忆,而无需依赖扩展显式上下文或繁重的外部检索模块。
我们的贡献可以总结如下:
- 我们提出了 δ-mem,一种记忆机制,它通过一个紧凑的联想记忆在线状态来增强冻结的全注意力骨干网络,使得历史信息能够被动态维护并直接与骨干网络的注意力计算耦合。
- 我们表明,一个极小的记忆状态,实现为 8 × 8 矩阵,可以通过 OSAM 保留有用的历史信号,并帮助模型在移除显式历史记录后恢复上下文相关信息。
- 我们在多个记忆密集型和通用能力基准测试上评估了 δ-mem,在 MemoryAgentBench 和 LoCoMo 等记忆密集型任务上取得了显著收益,而无需完全微调或替换骨干网络架构。
2 预备知识
对于用于序列建模的 Transformer,令 x ∈ R^(N×d) 表示选定 Transformer 层的输入隐藏序列,其中 N 是序列长度,d 是隐藏维度。单个位置的隐藏状态表示为 x_t ∈ R^d。为简洁起见,每个单位置向量被视为列向量。序列形式可以理解为沿位置维度堆叠这些向量。我们使用 Q、K、V 表示注意力中的查询、键和值,并使用 S_t 表示处理位置 t 后的在线状态。除非另有说明,下文中我们省略层索引。
具体来说,δ-mem 维护一个矩阵 S 作为联想记忆的在线状态。随着令牌被处理,该状态被顺序更新,以紧凑地编码来自历史上下文的键-值关联。给定位置 t 的记忆键 k_t ∈ R^r 和值 v_t ∈ R^r,该状态预期存储关联 k_t ↦ v_t。先前状态做出的预测为:
ˆv_t = S_(t-1) k_t. (1)
然后,此记忆更新可以被视为使用 SGD 优化在线回归损失:
L_t(S) = ∥S k_t - v_t∥^2, S_t = S_(t-1) - β_t ∇_(S_(t-1)) L_t(S_(t-1)) = S_(t-1) + β_t (v_t - S_(t-1) k_t) k_t^⊤. (2)
此公式仅沿键方向写入残差信息。因此,学习良好的关联会引发可忽略的更新,而预测差异则会动态纠正记忆状态。受 Qwen-Next(Yang et al., 2025)中门控保留设计的启发,我们进一步引入一个遗忘门来控制长程状态演化:
S_t = λ_t S_(t-1) + β_t (v_t - S_(t-1) k_t) k_t^⊤. (3)
这里 λ_t 控制保留多少先前的记忆,而 β_t 控制残差写入的强度。这种门控 delta 更新构成了 δ-mem 中稳定在线记忆动态的基础。
3 δ-mem
在每个位置,δ-mem 遵循相同的计算顺序:从旧状态读取联想记忆信号,使用这些信号引导注意力,然后将当前信息写入状态。通过这种方式,模型可以将历史压缩成一个随序列演化的状态,并在后续推理中使用它,而无需更新骨干网络参数。图 1 提供了此设计的概览。冻结的骨干网络执行标准的注意力计算,而 δ-mem 从先前状态读取,生成查询侧和输出侧的注意力修正,并使用当前的记忆键-值信息更新在线状态。该图还总结了本工作中研究的三种写入策略,对应于令牌级更新、片段级更新和多状态记忆组织。
3.1 记忆投影
为了形成联想记忆的在线状态,给定当前位置的隐藏状态 x_t ∈ R^d,δ-mem 将其投影到一个低维联想记忆空间:
q_t^m = L2 范数 (tanh(W_q^m x_t)), k_t^m = L2 范数 (tanh(W_k^m x_t)), v_t^m = W_v^m x_t, (4)
其中 q_t^m, k_t^m, v_t^m ∈ R^r。这三个向量对应于记忆的读取和写入。q_t^m 查询旧状态,而 k_t^m 和 v_t^m 描述当前信息应如何写入状态。对查询和键进行归一化可以减少长序列循环中由尺度漂移引起的状态不稳定性。
写入门和保留门也由当前隐藏状态决定:
β_t = σ(W_β x_t + b), λ_t = 1 - β_t. (5)
其中 β_t, λ_t ∈ R^r,b 是偏置,σ 是 sigmoid 函数。这允许状态更新按维度进行调整:一些维度保留旧记忆,而其他维度更积极地写入当前信息。
3.2 从联想记忆在线状态读取
在写入当前信息之前,δ-mem 首先从旧状态读取:
r_t = S_(t-1) q_t^m. (6)
读取向量 r_t ∈ R^r 是使用当前输入查询在线记忆状态的结果。由于 S_(t-1) 的大小是固定的,此步骤的成本与历史长度无关。
这种读取形式是对标准注意力的补充。注意力将查询与显式上下文中的所有键进行比较,而 δ-mem 直接从压缩状态中获取连续的联想记忆信号。它不返回文本片段或添加上下文令牌。相反,它在注意力计算之前提供依赖于历史的引导信号。
3.3 通过低秩修正引导注意力
联想记忆信号通过两个轻量级线性映射来引导注意力计算。首先,读取信号 r_t 被投影到查询侧修正和输出侧修正:
Δq_t = W_Δ^q r_t, Δo_t = W_Δ^o r_t. (7)
然后,查询侧修正被添加到冻结骨干网络的原始查询中:
q_t^0 = W_Q x_t, ˜q_t = q_t^0 + (α / √r) Δq_t. (8)
然后使用修正后的查询和冻结骨干网络的键和值计算注意力输出 a_t,而输出侧修正则在注意力之后添加:
a_t = Attn(˜q_t, K_(≤t), V_(≤t)), ˜y_t = a_t + (α / √r) Δo_t. (9)
主要实现仅在查询和输出侧使用两个修正项,我们在第 5 节中详细说明了这些选择。这里的低秩修正与静态适配器不同。尽管 W_Δ^q 和 W_Δ^o 在训练后是固定的,但它们的输入 r_t 来自动态状态 S_(t-1)。因此,同一组参数可以在不同历史下产生不同的引导效果。
3.4 写入联想记忆在线状态
当前注意力计算完成后,δ-mem 将当前位置的信息写入在线状态。给定当前的记忆键-值对 (k_t^m, v_t^m),先前状态首先预测与当前键关联的值,即 S_(t-1) k_t^m。目标值与这个预测之间的差异定义了要写入的残差信息。如第 2 节所述,δ-mem 使用逐维度门控 delta 规则更新状态:
S_t = Diag(λ_t) S_(t-1) + Diag(β_t) (v_t^m - S_(t-1) k_t^m) (k_t^m)^⊤. (10)
展开更新得到:
S_t = Diag(λ_t) S_(t-1) - Diag(β_t) S_(t-1) k_t^m (k_t^m)^⊤ + Diag(β_t) v_t^m (k_t^m)^⊤. (11)
这三个项具有明确的作用:第一项保留先前状态,第二项沿当前键方向移除旧的预测分量,第三项将新值写入同一方向。因此,记忆状态通过带有受控遗忘的误差校正进行更新,而不是无选择地累积新的外积。
通过逐行展开更新,可以看到门的逐维度性质。令 s_t^(i) 表示 S_t 的第 i 行。那么,
s_t^(i) = λ_(t,i) s_(t-1)^(i) + β_(t,i) (v_(t,i)^m - s_(t-1)^(i) k_t^m) (k_t^m)^⊤. (12)
这表明每个记忆维度可以独立控制保留多少旧信息以及当前残差写入的强度。这种逐维度门控对于持续交互非常有用,因为状态必须保留稳定的历史信息,同时仍能适应新的输入。
3.5 在线状态的写入粒度
上述公式解释了如何执行单次写入操作,但记忆机制还取决于写入粒度的定义。令牌是最细的粒度,但并非总是最合适的。在对话和智能体轨迹中,消息、语义片段或阶段级事件通常更稳定。因此,我们研究了三种写入策略。如图 1 所示,TSW 在每个令牌处写入,SSW 平均每个片段内的隐藏状态并按片段写入,MSW 写入多个并行子状态然后聚合它们的读出结果。
令牌状态写入(TSW)。令牌状态写入在每个令牌位置更新在线状态:
S_t = Update(S_(t-1), x_t). (13)
它保留了最细粒度的信息,适用于需要捕捉局部变化的场景。然而,由于每个令牌都会触发一次写入操作,状态也更容易受到格式符号、重复表达和短期噪声的影响。
序列状态写入(SSW)。序列状态写入将写入粒度从单个令牌提升到一个消息片段。令 M^(j) 表示第 j 条消息中的令牌索引集合。我们首先通过平均该消息内所有令牌的隐藏状态来获得片段表示:
¯x^(j) = (1 / |M^(j)|) Σ_(t∈M^(j)) x_t. (14)
然后,每条消息更新在线状态一次。令 S^(j) 表示合并了第 j 条消息后的状态:
S^(j) = Update(S^(j-1), ¯x^(j)). (15)
SSW 减少了冗余写入并平滑了状态演化。其代价是一些细粒度的令牌级细节被平均后的片段表示所吸收。
多状态写入(MSW)。前两种策略调整写入粒度,而 MSW 调整状态组织。单个状态需要同时包含事实、偏好、任务进度和局部事件,这很容易导致覆盖和干扰。MSW 将记忆分解为多个并行的子状态:
S_t = {S_t^(1), ..., S_t^(N)}, S_t^(i) = Update^(i)(S_(t-1)^(i), x_t), r_t = Concat(r_t^(1), ..., r_t^(N)). (16)
其中 N 是状态数量,S_t^(i) ∈ R^(r×r),且 r_t^(i) = S_(t-1)^(i) q_t^(m,(i)),对于 i = 1, ..., N。这种组织方式允许不同的子状态累积不同类型的信息,从而减少单个状态内的相互干扰。
3.6 训练目标
δ-mem 使用标准的 SFT 损失进行训练。对于每个样本,上下文令牌首先被写入在线状态,产生 S_C,而它们在预测期间不会作为显式的骨干网络输入被重放。冻结的骨干网络仅接收查询 Q 和响应 Y,存储的状态通过 δ-mem 引导注意力。损失是响应令牌上的自回归交叉熵:
L_SFT = - Σ_(j=1)^(|Y|) log p_(ϕ,θ)(y_j | Q, y_ 其中 θ 表示可训练的 δ-mem 参数,ϕ 表示冻结的骨干网络参数。 评估与基准测试。为了独立衡量通用推理能力和记忆有效性,我们在通用任务和记忆密集型基准测试上评估我们的方法。通用多跳推理、知识密集型问答和指令遵循使用 HotpotQA(Yang et al., 2018)、GPQA-Diamond(Rein et al., 2023)和 IFEval(Zhou et al., 2023)进行评估。在记忆密集型方面,我们使用 LoCoMo(Maharana et al., 2024)(遵循(Chhikara et al., 2025),排除对抗性问题类别)以及 MemoryAgentBench(Hu et al., 2025)来评估跨扩展交互历史的记忆信息保留、检索和利用能力。 基线方法。我们将 δ-mem 与代表性的记忆机制进行比较。所有方法都基于相同的 Qwen3-4B-Instruct 骨干网络。对于文本记忆机制,我们考虑了 BM25 RAG(Lewis et al., 2020),它检索相关的历史文本并将其前置到上下文中;LLMLingua-2(Pan et al., 2024),它将长历史压缩成更短的文本上下文;以及 MemoryBank(Zhong et al., 2024),它通过文本记忆条目维护持续的交互历史。对于参数化记忆机制,我们与 Context2LoRA(Hu et al., 2022; Back et al., 2026)和 MemGen(Zhang et al., 2025a)进行比较,它们将记忆或上下文相关的适应性编码到额外的可训练参数中。对于外部通道记忆,我们包含了一个 MLP 记忆(Wei et al., 2026)基线,它在单独模块中检索信息,然后融合回模型。我们还在附录 C 中报告了秩为 8 配置的可训练参数数量,以比较在相似或更小的适应预算下的记忆有效性。 实现细节。我们选择了不同大小的 LLM 骨干网络,包括 Qwen3-8B(Yang et al., 2025)、Qwen3-4B-Instruct(Yang et al., 2025)和 SmolLM3-3B(Bakouch et al., 2025)。更多的训练设置和评估配置列在附录 A 中。 表 1:在 Qwen3-4B-Instruct 上比较不同记忆机制的主要基准测试结果。所有值报告附录 A 中详细说明的任务特定指标。对于最终平均得分,HotpotQA 使用精确匹配(EM)计算。 | 模型 | IFEval | HotpotQA EM | HotpotQA F1 | GPQA-D | Memory Agent Bench Avg | Memory Agent Bench AR | Memory Agent Bench TTL | Memory Agent Bench LRU | Memory Agent Bench SF | LoCoMo Avg | LoCoMo Multi | LoCoMo Temp | LoCoMo Open | LoCoMo Single | 平均 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | Qwen3-4B-Instruct | 81.89 | 42.35 | 56.00 | 39.39 | 29.54 | 35.30 | 26.14 | 47.08 | 14.37 | 40.79 | 38.39 | 32.89 | 10.77 | 48.05 | 46.79 | | + BM25 RAG | - | 40.35 | 52.83 | - | 24.49 | 9.74 | 1.43 | 15.63 | 7.67 | 36.68 | 38.12 | 20.34 | 9.99 | 45.47 | 44.56 | | + LLMLingua-2 | - | 36.93 | 50.03 | - | 32.20 | 32.53 | 21.45 | 29.61 | 22.65 | 40.98 | 39.07 | 30.13 | 10.98 | 49.19 | 42.96 | | + MemoryBank | - | - | - | - | 17.65 | 29.86 | 7.67 | 28.45 | 14.38 | 38.14 | 37.88 | 21.76 | 13.35 | 47.31 | 43.88 | | + Context2LoRA | 76.71 | 39.37 | 50.88 | 29.29 | 32.53 | 40.00 | 29.86 | 25.15 | 17.75 | 48.11 | 37.95 | 34.99 | 16.75 | 60.11 | 44.90 | | + MemGen | 37.85 | 5.36 | 16.27 | 38.89 | 29.61 | 34.85 | 28.45 | 44.30 | 14.38 | 40.05 | 32.93 | 33.30 | 12.67 | 48.13 | 30.66 | | + MLP Memory | 24.95 | 10.94 | 25.83 | 22.73 | 28.80 | 35.35 | 26.00 | 31.19 | 14.38 | 26.85 | 32.87 | 16.72 | 8.81 | 30.75 | 22.85 | | + δ-Mem (SSW) | 81.70 | 49.22 | 63.43 | 41.41 | 37.84 | 41.50 | 50.50 | 43.02 | 16.50 | 47.05 | 41.00 | 36.48 | 14.08 | 56.88 | 51.44 | | + δ-Mem (TSW) | 82.99 | 49.41 | 63.66 | 40.40 | 36.48 | 42.45 | 40.64 | 46.08 | 15.88 | 46.53 | 42.14 | 37.20 | 13.35 | 55.36 | 51.66 | | + δ-Mem (MSW) | 81.52 | 46.86 | 60.47 | 37.37 | 38.85 | 44.40 | 47.29 | 41.55 | 17.00 | 49.12 | 42.57 | 39.31 | 18.12 | 58.59 | 50.74 | 表 1 比较了 δ-mem 与代表性记忆增强基线在通用推理、指令遵循和记忆密集型基准测试上的表现。δ-mem 在所有方法中取得了最强的性能。TSW 变体达到了最佳平均得分 51.66%,比 Qwen3-4B-Instruct 骨干网络(46.79%)提高了 +4.87 个百分点,比 Context2LoRA(44.90%)提高了 +6.76 个百分点。SSW 和 MSW 也表现强劲,分别达到 51.44% 和 50.74%。收益在记忆密集型基准测试上最为显著。在 MemoryAgentBench 上,δ-mem 将平均得分从 29.54% 提高到 38.85%,其中 MSW 表现最佳。在 LoCoMo 上,MSW 取得了最高的平均值 49.12%,并在 Multi、Temporal 和 Open 子集上表现最佳。在 HotpotQA 上,TSW 将 EM/F1 从 42.35%/56.00% 提高到 49.41%/63.66%。 在基线方法中,不同的记忆机制表现出不同的局限性。文本记忆方法显示出不一致的收益,可能是由于检索噪声以及将记忆压缩到令牌空间所引入的信息损失。参数化记忆方法(如 Context2LoRA)在任务间的泛化能力较弱,因为它们的记忆被静态编码在参数中,可能会过拟合训练分布。MLP 记忆基线表现相对有限,表明它缺乏顺序状态积累,无法显式建模长程依赖关系,同时通过近似实例级检索引入了信息损失。相比之下,δ-mem 在通用和记忆密集型评估中均持续提升性能,表明将记忆维护为在线状态提供了一种更鲁棒的记忆机制。 表 2:跨骨干模型的通用基准测试和长上下文评估结果。所有值报告附录 A 中详细说明的任务特定指标。对于最终平均得分,HotpotQA 使用精确匹配(EM)计算。 | 模型 | IFEval | HotpotQA EM | HotpotQA F1 | GPQA-D | Memory Agent Bench Avg | Memory Agent Bench AR | Memory Agent Bench TTL | Memory Agent Bench LRU | Memory Agent Bench SF | LoCoMo Avg | LoCoMo Multi | LoCoMo Temp | LoCoMo Open | LoCoMo Single | 平均 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | Qwen3-4B-Instruct | 81.89 | 42.35 | 56.00 | 39.39 | 29.54 | 35.30 | 26.14 | 47.08 | 14.37 | 40.79 | 38.39 | 32.89 | 10.77 | 48.05 | 46.79 | | + δ-Mem (SSW) | 81.70 | 49.22 | 63.43 | 41.41 | 37.84 | 41.50 | 50.50 | 43.02 | 16.50 | 47.05 | 41.00 | 36.48 | 14.08 | 56.88 | 51.44 | | + δ-Mem (TSW) | 82.99 | 49.41 | 63.66 | 40.40 | 36.48 | 42.45 | 40.64 | 46.08 | 15.88 | 46.53 | 42.14 | 37.20 | 13.35 | 55.36 | 51.66 | | + δ-Mem (MSW) | 81.52 | 46.86 | 60.47 | 37.37 | 38.85 | 44.40 | 47.29 | 41.55 | 17.00 | 49.12 | 42.57 | 39.31 | 18.12 | 58.59 | 50.74 | | + Context2LoRA | 76.71 | 37.85 | 50.88 | 29.29 | 32.53 | 40.00 | 29.86 | 25.15 | 17.75 | 48.11 | 37.95 | 34.99 | 16.75 | 60.11 | 44.90 | | Qwen3-8B | 79.67 | 32.48 | 56.61 | 44.95 | 31.87 | 45.10 | 12.79 | 48.22 | 12.00 | 47.02 | 46.46 | 35.36 | 14.20 | 59.03 | 47.20 | | + δ-Mem (SSW) | 80.41 | 41.42 | 53.61 | 45.45 | 33.63 | 45.55 | 19.52 | 46.11 | 13.50 | 51.01 | 44.35 | 34.76 | 20.05 | 62.05 | 50.86 | | + δ-Mem (TSW) | 82.81 | 43.81 | 51.34 | 44.95 | 32.97 | 45.65 | 16.43 | 46.41 | 12.88 | 50.70 | 45.52 | 34.82 | 17.90 | 62.66 | 50.68 | | + δ-Mem (MSW) | 80.96 | 41.97 | 49.19 | 49.49 | 32.66 | 45.55 | 14.95 | 44.60 | 12.88 | 50.92 | 35.18 | 35.05 | 21.21 | 62.27 | 50.84 | | + Context2LoRA | 77.26 | 40.15 | 36.22 | 38.38 | 30.52 | 43.15 | 10.05 | 34.04 | 13.38 | 47.20 | 22.41 | 16.49 | 20.49 | 58.92 | 45.92 | | SmolLM3-3B | 67.10 | 1.67 | 14.40 | 23.23 | 14.21 | 12.57 | 5.53 | 30.72 | 16.13 | 24.18 | 29.12 | 27.09 | 10.87 | 29.22 | 26.08 | | + δ-Mem (SSW) | 70.61 | 27.35 | 43.26 | 26.77 | 19.22 | 16.80 | 6.50 | 37.84 | 8.00 | 39.39 | 27.48 | 25.34 | 22.57 | 49.45 | 36.67 | | + δ-Mem (TSW) | 66.36 | 24.90 | 41.28 | 26.26 | 20.74 | 17.98 | 8.71 | 41.63 | 15.75 | 35.46 | 29.78 | 27.15 | 17.04 | 44.10 | 34.74 | | + δ-Mem (MSW) | 67.47 | 31.61 | 46.77 | 25.76 | 20.54 | 18.10 | 8.32 | 39.63 | 15.75 | 39.41 | 26.35 | 26.05 | 19.59 | 49.59 | 36.96 | | + Context2LoRA | 62.29 | 30.28 | 44.39 | 26.77 | 17.62 | 16.08 | 2.86 | 36.77 | 14.75 | 37.74 | 17.62 | 16.12 | 15.41 | 48.58 | 34.94 | 表 2 评估了 δ-mem 在三个骨干模型上的表现,展示了全面平均得分的持续提升。δ-mem 在所有骨干网络上均提高了平均得分。具体来说,它将 Qwen3-4B-Instruct 从 46.79% 提升到 51.66%,Qwen3-8B 从 47.20% 提升到 50.86%,SmolLM3-3B 从 26.08% 提升到 36.96%。值得注意的是,写入策略的有效性因模型容量而异。在能力更强的 Qwen3-8B 上,改进较为温和但稳定,SSW 获得了最高的平均得分 50.86%。这表明对于具有更强固有推理能力的骨干网络,片段级写入(SSW)平滑了状态更新,并有效减轻了令牌级噪声。相比之下,较小的 SmolLM3-3B 在 MSW 驱动下表现出显著的性能飞跃(从 26.08% 到 36.96%),表明较小的骨干网络从将记忆分离到多个状态以减少干扰中获益显著。 为了检验联想记忆的在线状态是否能在没有显式上下文重放的情况下保留有用的历史信息,我们在无上下文设置下评估了 δ-mem,其中原始历史上下文被移除,仅注入压缩的记忆状态。如图 2 所示,δ-mem 在 HotpotQA 和 LoCoMo 上均持续优于无上下文基线。在 HotpotQA 上,总体 EM 从 0.08% 提高到 6.48%,总体 F1 从 8.27% 提高到 15.20%。收益在 Bridge 子集上尤其大,EM 从 0.08% 上升到 3.97%,F1 从 6.25% 上升到 11.05%,表明在线状态可以恢复部分缺失的多跳证据。在 LoCoMo 上,δ-mem 也将总体平均值从 3.49% 提高到 8.05%,在多跳、时间、开放域和单跳问题上都有明显收益。这些结果表明,联想记忆的在线状态存储了与上下文相关的历史信号,当显式上下文不可用时可以重用。 图 2:以 Qwen3-4B-Instruct 为骨干网络,在 HotpotQA 和 LoCoMo 上的上下文恢复性能。 (图表显示:无上下文基线 vs δ-mem 增益。HotpotQA: Overall EM 0.08 → 6.48 (+6.40), Overall F1 8.27 → 15.20 (+6.93), Bridge EM 0.08 → 3.97 (+3.89), Bridge F1 6.25 → 11.05 (+4.80), Comparison EM 0.07 → 16.48 (+16.41), Comparison F1 16.31 → 31.70 (+15.39)。LoCoMo: Avg 6.89 → 9.62 (+2.73), Multi 8.77 → 9.52 (+0.75), Temp 1.06 → 2.33 (+1.27), Open 11.97 → 18.00 (+6.03), Single 7.90 → 11.48 (+3.58)。) 我们首先研究记忆诱导的修正应注入注意力块中的哪个位置。如表 3 所示,将 δ-mem 应用于查询和输出分支已经产生了强劲的性能,表明查询侧和输出侧修正为记忆注入提供了有效的接口。在单分支变体中,输出分支表现最佳,平均得分为 47.05%,而键分支效果较差。组合多个分支进一步提高了性能。完整的 qkvo 配置达到了最佳平均得分 48.05%。这些结果表明,当联想记忆信号能够共同影响查询形成、键-值交互和输出表示时,它们最为有效。虽然 qkvo 取得了最高的平均得分,但其相对于 qo 的边际收益并不足以证明额外的参数开销是合理的。因此,我们默认使用 qo 以获得最佳的性能-效率权衡。 表 3:以 Qwen3-4B-Instruct 为骨干网络,在 HotpotQA 和 LoCoMo 上的头部消融结果。 | 头部 | HotpotQA Overall EM | HotpotQA Overall F1 | HotpotQA Bridge EM | HotpotQA Bridge F1 | HotpotQA Comparison EM | HotpotQA Comparison F1 | LoCoMo Avg | LoCoMo Multi | LoCoMo Temp | LoCoMo Open | LoCoMo Single | 平均 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | q | 45.87 | 60.59 | 44.96 | 60.34 | 49.50 | 61.58 | 43.15 | 42.43 | 33.60 | 10.03 | 50.82 | 44.51 | | k | 43.39 | 57.28 | 42.35 | 56.82 | 47.55 | 59.09 | 40.98 | 38.44 | 33.12 | 10.93 | 48.26 | 42.19 | | v | 46.12 | 60.95 | 45.07 | 60.54 | 50.30 | 62.57 | 42.35 | 39.54 | 34.24 | 11.11 | 49.95 | 44.24 | | o | 48.94 | 63.69 | 47.67 | 63.58 | 54.00 | 64.15 | 45.15 | 39.68 | 36.31 | 12.77 | 54.06 | 47.05 | | qk | 45.46 | 59.62 | 44.19 | 59.12 | 50.50 | 61.59 | 42.94 | 40.64 | 33.65 | 10.09 | 51.01 | 44.20 | | qv | 47.02 | 61.95 | 45.86 | 61.64 | 51.65 | 63.20 | 43.24 | 40.38 | 35.57 | 10.76 | 50.84 | 45.13 | | qo | 49.41 | 63.66 | 47.65 | 63.22 | 56.42 | 65.42 | 46.53 | 42.14 | 37.20 | 13.35 | 55.36 | 47.97 | | kv | 45.67 | 60.43 | 44.90 | 60.25 | 48.76 | 61.14 | 42.02 | 39.45 | 33.91 | 11.00 | 49.52 | 43.85 | | qko | 48.24 | 62.42 | 46.79 | 62.11 | 54.00 | 63.66 | 46.01 | 40.89 | 36.82 | 12.61 | 55.05 | 47.13 | | qkv | 47.47 | 62.56 | 46.40 | 62.25 | 51.71 | 63.81 | 42.42 | 39.40 | 34.70 | 10.04 | 50.08 | 44.95 | | qkvo | 49.94 | 65.01 | 48.39 | 64.63 | 56.09 | 66.56 | 46.15 | 41.08 | 37.25 | 13.14 | 55.02 | 48.05 | 表 4 研究了 δ-mem 在模型各层中的插入深度。将记忆修正应用于所有层取得了最佳的整体性能,平均得分为 47.97%。它还在 HotpotQA 上取得了最强结果,将总体 EM/F1 提高到 49.41%/63.66%,并达到了 LoCoMo 的最佳平均值 46.53%。这些结果表明,当联想记忆信号能够影响骨干网络整个深度的表示层次时,它们最为有效。在部分层变体中,中间层配置表现最佳,平均得分为 46.66%。它在最终平均得分上明显优于前层和后层配置。这表明中间层为记忆注入提供了一个特别有效的接口,平衡了语义抽象和任务特定计算。相比之下,前层注入作用于过于局部的表示,而后层注入则没有为联想记忆信号在后续计算中传播留下足够的深度。 表 4:以 Qwen3-4B-Instruct 为骨干网络,在 HotpotQA 和 LoCoMo 上的插入深度结果。 | 层 | HotpotQA Overall EM | HotpotQA Overall F1 | HotpotQA Bridge EM | HotpotQA Bridge F1 | HotpotQA Comparison EM | HotpotQA Comparison F1 | LoCoMo Avg | LoCoMo Multi | LoCoMo Temp | LoCoMo Open | LoCoMo Single | 平均 | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 前 12 层 | 45.52 | 61.01 | 45.32 | 61.08 | 46.33 | 60.77 | 43.26 | 39.06 | 33.65 | 10.19 | 52.10 | 44.39 | | 中间 12 层 | 47.44 | 60.59 | 45.56 | 60.06 | 54.94 | 62.71 | 45.87 | 44.00 | 35.75 | 13.09 | 54.10 | 46.66 | | 后 12 层 | 44.58 | 59.04 | 43.56 | 58.65 | 48.62 | 60.58 | 43.53 | 40.60 | 36.31 | 11.11 | 50.97 | 44.06 | | 所有层 | 49.41 | 63.66 | 47.65 | 63.22 | 56.42 | 65.42 | 46.53 | 42.14 | 37.20 | 13.35 | 55.36 | 47.97 | 文本记忆机制。文本记忆机制将记忆外部化为文本条目、摘要或可检索文档,并将选定的证据重新注入输入上下文或检索增强生成过程。早期的检索增强系统(Lewis et al., 2020; Borgeaud et al., 2022)展示了可扩展文本存储库在知识密集型生成中的有效性,而后来面向智能体的方法(Packer et al., 2023; Park et al., 2023; Zhong et al., 2024; Chhikara et al., 2025)通过日志记录、总结和反思来组织过去的历史和经验,将这一范式扩展到持续交互。尽管具有灵活性,文本记忆仍然受到其令牌化形式的限制:记忆的使用对压缩保真度、检索噪声和上下文预算敏感(Laban et al., 2025; Hong et al., 2025)。δ-mem 不将压缩后的历史路由回令牌空间。相反,它维护一个紧凑的在线状态,并利用其读出结果通过低秩注意力修正来引导冻结的 Transformer,将记忆维护与提示级别的重新插入分离开来。 外部通道记忆机制。一系列相关工作将记忆存储在骨干网络外部,同时以潜在形式而非文本形式保存记忆(Wu et al., 2022; Wang et al., 2023; Wei et al., 2026)。记忆化 Transformer(Wu et al., 2022)将过去的内部表示存储为不可微的键-值记忆,并使用近似 kNN 进行检索,而 LongMem(Wang et al., 2023)使用冻结的骨干网络作为记忆编码器,并使用自适应残差侧网络从外部记忆库中读取。与文本记忆相比,潜在记忆可以避免自然语言总结引入的部分信息损失,并保留更丰富的内部表示。然而,记忆仍然通过单独的检索或读取路径与骨干网络交互,引入了检索开销、融合复杂性以及存储表示与当前表示之间可能的不匹配。δ-mem 的不同之处在于,其记忆不是作为辅助外部源被检索;相反,其紧凑的在线状态直接产生对注意力计算的低秩修正,允许记忆参与当前的前向传播。 参数化记忆机制。参数化记忆机制将记忆编码到额外的参数或局部权重编辑中。前缀微调(Li and Liang, 2021)为冻结模型学习连续的虚拟令牌,而 LoRA(Hu et al., 2022)将低秩可训练更新注入选定层,表明小的参数添加可以有效地引导模型行为。模型编辑方法如 ROME(Meng et al., 2022a)和 MEMIT(Meng et al., 2022b)通过局部或低秩权重更新插入事实关联,进一步将参数视为可写的记忆基板。然而,这些方法不太适合在线记忆:它们的记忆通常在训练后固定或通过离散编辑步骤更新,而不是随序列持续演化。它们的写入粒度也与交互历史不太对齐,交互历史通常以令牌、消息或片段级别的分辨率展开。因此,参数化记忆通常作为对模型行为的持久修改,而不是一个状态条件的记忆机制,其影响随当前历史而变化。δ-mem 在其低秩接口上接近 LoRA,但根本区别在于 LoRA 的低秩更新是静态的,而 δ-mem 在运行时从一个紧凑的在线状态生成低秩注意力修正。 在这项工作中,我们介绍了 δ-mem,一种轻量级记忆机制,它为冻结的全注意力骨干网络配备了一个紧凑且动态更新的联想记忆在线状态。δ-mem 将过去的信息压缩成一个固定大小的在线状态,并利用其读出结果生成对骨干网络注意力组件的低秩修正。这种设计允许记忆在线维护并直接参与前向计算,而无需完全微调或替换骨干网络架构。实验表明,δ-mem 在记忆密集型基准测试上提升了性能,同时很大程度上保留了冻结骨干网络的通用能力。值得注意的是,即使使用极小的 8 × 8 在线状态,模型也能在移除显式上下文后恢复有用的历史信息,这表明有效的记忆不需要扩展显式上下文或繁重的外部检索模块。这些结果表明,紧凑的在线状态可以作为冻结 Transformer 骨干网络中测试时记忆的可扩展且高效的接口。 Anthropic. Claude code overview. https://code.claude.com/docs/en/overview, 2026. Claude Code Docs, accessed April 14, 2026. Seungju Back, Dongwoo Lee, Naun Kang, Taehee Lee, SK Hong, Youngjune Gwon, and Sungjin Ahn. Understanding lora as knowledge memory: An empirical analysis. arXiv preprint arXiv:2603.01097, 2026. Elie Bakouch, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Lewis Tunstall, Carlos Miguel Patiño, Edward Beeching, Aymeric Roucher, Aksel Joonas Reedi, Quentin Gallouédec, Kashif Rasul, Nathan Habib, Clémentine Fourrier, Hynek Kydlicek, Guilherme Penedo, Hugo Larcher, Mathieu Morlon, Vaibhav Srivastav, Joshua Lochner, Xuan-Son Nguyen, Colin Raffel, Leandro von Werra, and Thomas Wolf. SmolLM3: smol, multilingual, long-context reasoner. https://huggingface.co/blog/smollm3, 2025. Ali Behrouz, Peilin Zhong, and Vahab Mirrokni. Titans: Learning to memorize at test time. arXiv preprint arXiv:2501.00663, 2024. Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George Bm Van Den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. Improving language models by retrieving from trillions of tokens. In International conference on machine learning, pages 2206–2240. PMLR, 2022. Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, and Deshraj Yadav. Mem0: Building production-ready ai agents with scalable long-term memory. arXiv preprint arXiv:2504.19413, 2025. Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, and Matt Gardner. A dataset of information-seeking questions and answers anchored in research papers. 2021. Yufeng Du, Minyang Tian, Srikanth Ronanki, Subendhu Rongali, Sravan Bodapati, Aram Galstyan, Azton Wells, Roy Schwartz, Eliu A Huerta, and Hao Peng. Context length alone hurts llm performance despite perfect retrieval. arXiv preprint arXiv:2510.05381, 2025. Google. A new era of intelligence with gemini 3. https://blog.google/products-and-platforms/products/gemini/gemini-3/. Kelly Hong, Anton Troynikov, and Jeff Huber. Context rot: How increasing input tokens impacts llm performance. Technical report, Chroma, July 2025. https://research.trychroma.com/context-rot. Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Liang Wang, Weizhu Chen, et al. Lora: Low-rank adaptation of large language models. Iclr, 1(2):3, 2022. Yuanzhe Hu, Yu Wang, and Julian McAuley. Evaluating memory in llm agents via incremental multi-turn interactions. arXiv preprint arXiv:2507.05257, 2025. Bowen Jiang, Yuan Yuan, Maohao Shen, Zhuoqun Hao, Zhangchen Xu, Zichen Chen, Ziyi Liu, Anvesh Rao Vijjini, Jiashu He, Hanchao Yu, et al. Personamem-v2: Towards personalized intelligence via learning implicit user personas and agentic memory. arXiv preprint arXiv:2512.06688, 2025. Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, and Jennifer Neville. Llms get lost in multi-turn conversation. arXiv preprint arXiv:2505.06120, 2025. Jingdi Lei, Di Zhang, and Soujanya Poria. Error-free linear attention is a free lunch: Exact solution from continuous-time dynamics. arXiv preprint arXiv:2512.12602, 2025. Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in neural information processing systems, 33:9459–9474, 2020. Xiang Lisa Li and Percy Liang. Prefix-tuning: Optimizing continuous prompts for generation. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 4582–4597, 2021. Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, and Yuwei Fang. Evaluating very long-term conversational memory of llm agents. arXiv preprint arXiv:2402.17753, 2024. Kevin Meng, David Bau, Alex Andonian, and Yonatan Belinkov. Locating and editing factual associations in gpt. Advances in neural information processing systems, 35:17359–17372, 2022a. Kevin Meng, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, and David Bau. Mass-editing memory in a transformer. arXiv preprint arXiv:2210.07229, 2022b. OpenAI. Introducing gpt-5.5. https://openai.com/index/introducing-gpt-5-5/. OpenAI. Codex. https://developers.openai.com/codex, 2026. OpenAI Developers documentation, accessed April 14, 2026. Charles Packer, Vivian Fang, Shishir_G Patil, Kevin Lin, Sarah Wooders, and Joseph_E Gonzalez. Memgpt: towards llms as operating systems. 2023. Zhuoshi Pan, Qianhui Wu, Huiqiang Jiang, Menglin Xia, Xufang Luo, Jue Zhang, Qingwei Lin, Victor Rühle, Yuqing Yang, Chin-Yew Lin, et al. Llmlingua-2: Data distillation for efficient and faithful task-agnostic prompt compression. In Findings of the Association for Computational Linguistics: ACL 2024, pages 963–981, 2024. Joon Sung Park, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. Generative agents: Interactive simulacra of human behavior. In Proceedings of the 36th annual acm symposium on user interface software and technology, pages 1–22, 2023. Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase, and Yuxiong He. Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters. In Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining, pages 3505–3506, 2020. David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, and Samuel R Bowman. Gpqa: A graduate-level google-proof q&a benchmark. arXiv preprint arXiv:2311.12022, 2023. Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. Reflexion: Language agents with verbal reinforcement learning. Advances in neural information processing systems, 36:8634–8652, 2023. Kimi Team, Yu Zhang, Zongyu Lin, Xingcheng Yao, Jiaxi Hu, Fanqing Meng, Chengyin Liu, Xin Men, Songlin Yang, Zhiyuan Li, et al. Kimi linear: An expressive, efficient attention architecture. arXiv preprint arXiv:2510.26692, 2025. Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, and Furu Wei. Augmenting language models with long-term memory. Advances in Neural Information Processing Systems, 36:74530–74543, 2023. Yu Wang and Xi Chen. Mirix: Multi-agent memory system for llm-based agents. arXiv preprint arXiv:2507.07957, 2025. Yu Wang, Dmitry Krotov, Yuanzhe Hu, Yifan Gao, Wangchunshu Zhou, Julian McAuley, Dan Gutfreund, Rogerio Feris, and Zexue He. M+: Extending memoryllm with scalable long-term memory. arXiv preprint arXiv:2502.00592, 2025. Rubin Wei, Jiaqi Cao, Jiarui Wang, Jushi Kai, Qipeng Guo, Bowen Zhou, and Zhouhan Lin. Mlp memory: A retriever-pretrained memory for large language models, 2026. https://arxiv.org/abs/2508.01832. Yuhuai Wu, Markus N Rabe, DeLesley Hutchins, and Christian Szegedy. Memorizing transformers. arXiv preprint arXiv:2203.08913, 2022. An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, and Zihan Qiu. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025. Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, and Christopher D. Manning. HotpotQA: A dataset for diverse, explainable multi-hop question answering. In Conference on Empirical Methods in Natural Language Processing (EMNLP), 2018. Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. In The eleventh international conference on learning representations, 2022. Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Yuxing Wei, Lean Wang, Zhiping Xiao, et al. Native sparse attention: Hardware-aligned and natively trainable sparse attention. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 23078–23097, 2025. Guibin Zhang, Muxin Fu, and Shuicheng Yan. Memgen: Weaving generative latent memory for self-evolving agents. arXiv preprint arXiv:2509.24704, 2025a. Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, et al. Agent learning via early experience. arXiv preprint arXiv:2510.08558, 2025b. Wanjun Zhong, Lianghong Guo, Qiqi Gao, He Ye, and Yanlin Wang. Memorybank: Enhancing large language models with long-term memory. In Proceedings of the AAAI conference on artificial intelligence, volume 38, pages 19724–19731, 2024. Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. Instruction-following evaluation for large language models, 2023. https://arxiv.org/abs/2311.07911. 训练设置。所有模型均在 QASPER(Dasigi et al., 2021)的最短 2,219 样本子集上训练一个 epoch,其最大序列长度为 8,269 个令牌。最大骨干网络训练序列长度设置为 512,而记忆写入预算设置为 8,192 个令牌。除非另有说明,δ-mem 使用 r = 8 和 α = 16,并且仅应用于查询和输出分支。MSW 中的状态数设置为 4。训练在 8 × A800 GPU 上进行,使用 bfloat16 精度、DeepSpeed ZeRO-2(Rasley et al., 2020)和融合 AdamW。我们使用峰值学习率 2 × 10^(-4),采用余弦衰减和 0.1 的预热比例。每个设备的批大小为 1,梯度累积步数为 4,有效全局批大小为 32。随机种子固定为 42。 评估细节。我们对所有基准测试遵循官方评估提示和解码设置。具体来说,我们报告 IFEval 的提示级严格准确率、HotpotQA 的精确匹配(EM)和 F1、GPQA 的准确率以及 LoCoMo 的 F1。对于 MemoryAgentBench,表 5 总结了评估类别、数据集和指标。每个数据集使用其对应的指标进行评估,最终 MemoryAgentBench 得分计算为样本加权平均值。 表 5:MemoryAgentBench 中的评估类别、数据集和指标。 | 类别 | 数据集 | 指标 | | :--- | :--- | :--- | | 准确检索 | SH-Doc QA, MH-Doc QA, LongMemEval (S*), EventQA | 准确率 | | 测试时学习 | BANKING77, CLINC150, NLU, TREC Coarse, TREC Fine, Movie Recommendation | 准确率, Recall@5 | | 长程理解 | ∞Bench-Sum, Detective QA | F1 分数 | | 选择性遗忘 | FactConsolidation-SH, FactConsolidation-MH | 准确率 | 我们进一步比较了不同记忆增强方法在不同提示和解码长度下的推理效率,如图 3b 和 3a 所示。δ-mem 实现了与 Vanilla 和 Context2LoRA 几乎相同的 GPU 内存使用量,表明其紧凑的循环状态即使在提示长度增加到 32K 时也引入了可忽略的内存开销。相比之下,MLP Memory 和 MemGen 需要显著更多的内存,反映了维护或生成更大辅助记忆表示的成本。在解码吞吐量方面,δ-mem 比 Vanilla 和 Context2LoRA 慢,因为每一步都涉及从在线状态读取和更新,但在所有测试设置下,它仍然比 MemGen 快得多且更稳定。这些结果表明,δ-mem 以轻量级的计算开销改善了长上下文记忆,在记忆能力和推理效率之间提供了实用的平衡。 图 3:不同提示和解码长度下的推理效率。 (a)解码吞吐量。(b)内存使用量。 (图表显示:在 4k-64, 4k-256, 16k-64, 16k-256, 32k-64, 32k-256 的提示长度-解码长度下,比较 Vanilla, Context2LoRA, δ-Mem (TSW), MLP Memory, MemGen 的解码吞吐量(令牌/秒)和内存使用量(GB)。δ-Mem 在吞吐量上接近 Vanilla 和 Context2LoRA,远高于 MLP Memory 和 MemGen;在内存使用上接近 Vanilla 和 Context2LoRA,远低于 MLP Memory 和 MemGen。) 我们比较了 δ-mem 与代表性记忆增强基线的可训练参数开销,如图 4 所示。δ-mem 的 SSW 和 TSW 变体仅引入了 4.87M 可训练参数,仅占骨干网络参数的 0.12%。即使是维护多个记忆状态的 MSW 变体,也仅需要 19.47M 可训练参数,对应骨干网络的 0.48%。相比之下,MemGen 使用 46.20M 可训练参数,而 MLP Memory 需要 3078.00M 参数,达到骨干网络规模的 76.40%。这些结果表明,δ-mem 以显著更低的参数开销实现了在线记忆增强,使其成为更大辅助记忆模块的轻量级替代方案。 图 4:跨记忆增强方法的可训练参数比较。 (条形图显示:MLP Memory: 3078.00M (76.40%), MemGen: 46.20M (1.13%), Context2LoRA: 5.90M (0.15%), δ-Mem (MSW): 19.47M (0.48%), δ-Mem (TSW): 4.87M (0.12%), δ-Mem (SSW): 4.87M (0.12%)。)4 实验
4.1 实验设置
4.2 跨记忆机制的主要结果
4.3 跨不同骨干模型的主要结果
5 消融研究
5.1 上下文恢复
5.2 头部消融
5.3 插入深度消融
6 相关工作
7 结论
参考文献
附录
A 实现细节
B 推理效率与内存使用
C 参数开销