自蒸馏微调(Self-Distillation Fine-Tuning, SDFT)是一种简单而高效的方法,它能够直接从演示(demonstrations)中实现策略内(on-policy)学习。SDFT巧妙地利用了上下文学习(in-context learning)的机制,它将一个由演示条件化的模型用作自身的“教师模型”,从而生成策略内训练信号。这些训练信号的独特之处在于,它们在帮助模型习得新技能的同时,能够有效地保留模型原有的先验能力。
在涵盖技能学习和知识获取等各类任务中,SDFT的表现持续优于传统的监督微调(SFT)。它不仅能够达成更高的新任务准确率,更关键的是,它能够显著地减少模型在学习新知识时常出现的“灾难性遗忘”(catastrophic forgetting)现象。
在序列学习的实验验证中,SDFT展现出了卓越的能力:它使得单个模型能够在时间推移的过程中,持续积累多项技能而不会出现性能的衰退。这有力地证明了“策略内蒸馏”是实现从演示中进行持续学习的一种极具实用价值的有效路径。
——
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。