研究背景
基于大语言模型的多智能体(LLM-MA)系统正越来越多地被应用于自动化复杂软件工程任务,如需求工程、代码生成和测试。然而,其运行效率和资源消耗仍未被充分理解,不可预测的成本和环境影响阻碍了实际采用。
针对这一问题,研究团队对软件开发全生命周期中 LLM-MA 系统的 Token 消耗模式进行了分析。他们使用 GPT-5 推理模型分析了 ChatDev 框架执行的 30 个软件开发任务的执行轨迹,将其内部阶段映射到标准开发阶段,构建了一个标准化的评估框架。
核心发现
代码审查吃掉 59.4% 的 Token
研究的关键发现是:迭代式代码审查阶段平均消耗了总 Token 的 59.4%。这意味着智能体软件工程的主要成本并不在初始代码生成,而在于自动化的代码精炼和验证环节。
输入 Token 占比 53.9%
输入 Token 在总消耗中平均占 53.9%,为智能体协作中存在显著低效率问题提供了实证证据——大量 Token 被用于传递重复的上下文和指令。
实践意义
- 成本预测:帮助从业者预估多智能体系统的费用支出
- 流程优化:代码审查是优化 Token 消耗的"主战场"
- 未来方向:引导研究朝着更高效的 Token 协作协议发展
方法论创新
研究提出了一个标准化评估框架,将 ChatDev 的内部阶段映射为标准软件开发阶段,使得不同 LLM-MA 系统的 Token 效率可以横向对比,具有较好的可推广性。
论文链接:arXiv:2601.14470