背景
多智能体辩论(Multi-Agent Debate)通过多个 LLM 实例互相批评和优化推理,能有效减少幻觉、提升准确性。但推理成本极高——每次回答需要先生成长篇辩论记录。
方法:Latent Agents 两阶段微调
阶段一:辩论结构学习(SFT)
用多智能体辩论数据对单个 LLM 进行监督微调,让其学习辩论的结构模式。数据集包含多种人格的辩论记录。
阶段二:强化学习内化(RL)
通过动态奖励调度(Dynamic Reward Scheduling)和长度裁剪(Length Clipping),让模型将多智能体辩论内化为单个前向传播中的隐式过程。
关键发现
- 性能匹敌甚至超越显式多智能体辩论,但 Token 消耗减少高达 93%
- 内化过程在激活空间中创建了"智能体专属子空间"——不同智能体视角对应可解释的激活方向
- 通过激活引导(Activation Steering)可以发现和控制这些子空间
实用应用
通过向 LLM 注入"恶意智能体"再进行负向引导,发现蒸馏后的恶意行为更容易被定位和控制,且对通用性能的损害更小。这为安全对齐提供了新思路。
意义
提供了一种将多智能体推理能力"压缩"进单模型的实用方法,同时揭示了一种可解释的机制——内化并非黑盒,而是有迹可循的激活空间结构。
原文:Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate — arXiv 2604.24881