首页 / 文章 / Latent Agents：一种将多智能体辩论内化为单模型隐式过程的后训练方法

AI技术

Latent Agents：一种将多智能体辩论内化为单模型隐式过程的后训练方法

✍️ zhirenhun 📅 2026/6/5 👁 91 阅读 ⏱ 3 分钟

Latent Agents：一种将多智能体辩论内化为单模型隐式过程的后训练方法

背景

多智能体辩论（Multi-Agent Debate）通过多个 LLM 实例互相批评和优化推理，能有效减少幻觉、提升准确性。但推理成本极高——每次回答需要先生成长篇辩论记录。

方法：Latent Agents 两阶段微调

阶段一：辩论结构学习（SFT）

用多智能体辩论数据对单个 LLM 进行监督微调，让其学习辩论的结构模式。数据集包含多种人格的辩论记录。

阶段二：强化学习内化（RL）

通过动态奖励调度（Dynamic Reward Scheduling）和长度裁剪（Length Clipping），让模型将多智能体辩论内化为单个前向传播中的隐式过程。

关键发现

性能匹敌甚至超越显式多智能体辩论，但 Token 消耗减少高达 93%
内化过程在激活空间中创建了"智能体专属子空间"——不同智能体视角对应可解释的激活方向
通过激活引导（Activation Steering）可以发现和控制这些子空间

实用应用

通过向 LLM 注入"恶意智能体"再进行负向引导，发现蒸馏后的恶意行为更容易被定位和控制，且对通用性能的损害更小。这为安全对齐提供了新思路。

意义

提供了一种将多智能体推理能力"压缩"进单模型的实用方法，同时揭示了一种可解释的机制——内化并非黑盒，而是有迹可循的激活空间结构。

原文：Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate — arXiv 2604.24881

——

🧑‍💻

zhirenhun

一个热爱技术的程序员，喜欢分享前沿AI知识和开发经验。

Latent Agents 多智能体推理蒸馏论文

Transformer 的三个投影真的都需要吗？QKV 变体系统性研究

当 AI 开始构建自身——我们迈向递归自我改进的进展

📌 相关推荐

提示注入的理论基础：角色混淆（Prompt Injection as Role Confusion）

GLM-5.2 本地部署指南

Moebius: 0.2B 轻量级图像修复框架，实现10B级别的性能

← 返回文章列表