第九便利

研究背景

基于大语言模型的多智能体（LLM-MA）系统正越来越多地被应用于自动化复杂软件工程任务，如需求工程、代码生成和测试。然而，其运行效率和资源消耗仍未被充分理解，不可预测的成本和环境影响阻碍了实际采用。

针对这一问题，研究团队对软件开发全生命周期中 LLM-MA 系统的 Token 消耗模式进行了分析。他们使用 GPT-5 推理模型分析了 ChatDev 框架执行的 30 个软件开发任务的执行轨迹，将其内部阶段映射到标准开发阶段，构建了一个标准化的评估框架。

研究的关键发现是：迭代式代码审查阶段平均消耗了总 Token 的 59.4%。这意味着智能体软件工程的主要成本并不在初始代码生成，而在于自动化的代码精炼和验证环节。

输入 Token 在总消耗中平均占 53.9%，为智能体协作中存在显著低效率问题提供了实证证据——大量 Token 被用于传递重复的上下文和指令。

研究提出了一个标准化评估框架，将 ChatDev 的内部阶段映射为标准软件开发阶段，使得不同 LLM-MA 系统的 Token 效率可以横向对比，具有较好的可推广性。