在深度学习领域,Transformer架构凭借其自注意力机制几乎统治了自然语言处理、计算机视觉等众多方向。然而,当序列长度持续增长时,Transformer的二次方复杂度(O(n²))成为难以回避的瓶颈——无论是处理长文档、基因序列还是长时间视频,计算和显存的消耗都会快速膨胀。近年来,一类基于状态空...
自蒸馏微调(SDFT)概述 自蒸馏微调(Self-Distillation Fine-Tuning, SDFT)是一种简单而高效的方法,它能够直接从演示(demonstrations)中实现策略内(on-policy)学习。SDFT巧妙地利用了上下文学习(in-context learning)的...
δ-mem:面向大型语言模型的高效在线记忆 翻译自 arXiv:2605.12357 | 分类: AI 技术 Jingdi Lei†1,3, Di Zhang†2,3, Junxian Li4, Weida Wang2, Kaixuan Fan5,3, Xiang Liu6,3, Qihan...