AI Agent 全面解析：工具、规划与失败模式

✍️ zhirenhun 📅 2026/5/24 👁 61 阅读 ⏱ 10 分钟

智能体（Agent）被许多人视为 AI 的终极目标。Stuart Russell 和 Peter Norvig 的经典著作《人工智能：一种现代方法》（Prentice Hall, 1995）将 AI 研究领域定义为"理性智能体的研究与设计"。

基础模型前所未有的能力，为之前难以想象的智能体应用打开了大门。这些新能力使我们终于能够开发自主、智能的智能体，充当我们的助手、同事和教练。它们可以帮助我们创建网站、收集数据、规划旅行、进行市场调研、管理客户账户、自动化数据录入、帮我们准备面试、面试候选人、谈判交易等等。可能性似乎是无限的，这些智能体的潜在经济价值也极其巨大。

本节将从智能体的概述开始，然后深入探讨决定智能体能力的两个关键方面：工具（Tools）和规划（Planning）。智能体拥有新的运行模式，也就意味着有新的失败模式。本节最后将讨论如何评估智能体以捕捉这些失败模式。

本文改编自《AI Engineering》（2025）中的 Agents 章节，经过少量编辑成为独立文章。

说明：AI 驱动的智能体是一个新兴领域，目前还没有成熟的框架来定义、开发和评估它们。本节是在现有文献基础上构建框架的最大努力尝试，但随着领域的发展，这个框架也会随之演变。与本书其他部分相比，本节更具实验性。我收到了早期审阅者的有益反馈，也希望得到这篇博文读者的反馈。

就在本书出版之前，Anthropic 发表了一篇关于构建有效智能体的博文（2024年12月）。我很高兴看到 Anthropic 的博文和我关于智能体的章节在概念上是一致的，尽管术语略有不同。不过，Anthropic 的文章侧重于孤立的模式，而我的文章侧重于阐述原理和机制。我还更侧重于规划、工具选择和失败模式的分析。

本文包含大量背景信息。如果觉得内容有些过于深入，可以随时跳读！

智能体概述

"智能体"这个词在许多不同的工程语境中被使用，包括但不限于软件智能体（software agent）、智能体（intelligent agent）、用户代理（user agent）、对话智能体（conversational agent）和强化学习智能体（reinforcement learning agent）。那么，究竟什么是智能体？

智能体是任何能够感知其环境并对其环境采取行动的实体。《人工智能：一种现代方法》（1995）将智能体定义为"任何可以通过传感器感知环境并通过执行器对环境采取行动的东西"。

这意味着智能体的特征取决于它所运行的环境以及它能够执行的动作集合。

智能体可以运行的环境由其用例决定。如果智能体是为玩游戏（例如《我的世界》、《围棋》、《Dota》）而开发的，那么该游戏就是它的环境。如果你希望智能体从互联网上抓取文档，那么环境就是互联网。自动驾驶汽车的智能体环境是道路系统及其周边区域。

AI 智能体能够执行的动作集合由其可访问的工具来增强。你日常打交道的许多由生成式 AI 驱动的应用，都是有工具访问权限的智能体（尽管是简单的智能体）。ChatGPT 就是一个智能体——它能够搜索网络、执行 Python 代码和生成图像。RAG 系统也是智能体——文本检索器、图像检索器和 SQL 执行器就是它们的工具。

智能体的环境与其工具集合之间存在强依赖关系。环境决定了智能体可能使用哪些工具。例如，如果环境是国际象棋游戏，智能体唯一可能的动作就是合法的棋步。反过来，智能体的工具库存也限制了其可运行的环境。例如，如果一个机器人的唯一动作是"游泳"，它就只能被限制在水环境中。

图 6-8 展示了 SWE-agent（Yang et al., 2024）的可视化，这是一个基于 GPT-4 构建的智能体。它的环境是带有终端和文件系统的计算机。它的动作集合包括导航代码库、搜索文件、查看文件和编辑代码行。

SWE-agent 架构图 — 图 6-8. SWE-agent 是一个编码智能体，环境为计算机，动作包括导航、搜索、查看文件和编辑代码

AI 智能体旨在完成通常由用户提出的任务。在 AI 智能体中，AI 是大脑——它处理任务、规划一系列动作来实现任务，并判断任务是否已完成。

让我们回到上面 Kitty Vogue 示例中处理表格数据的 RAG 系统。这是一个具有三个动作的简单智能体：

响应生成（response generation）
SQL 查询生成（SQL query generation）
SQL 查询执行（SQL query execution）

给定查询"预测 Fruity Fedora 未来三个月的销售收入"，智能体可能会执行以下动作序列：

推理如何完成这个任务。它可能决定：要预测未来的销售额，首先需要过去五年的销售数据。智能体的推理可以作为中间响应呈现。
调用 SQL 查询生成来生成获取过去五年销售数据的查询。
调用 SQL 查询执行来执行这个查询。
推理工具的输出（SQL 查询执行的输出）以及它们如何帮助销售预测。它可能认为这些数字不足以做出可靠的预测（也许由于缺失值）。然后它决定还需要过去营销活动的信息。
调用 SQL 查询生成来生成过去营销活动的查询。
调用 SQL 查询执行。
推理新信息足以帮助预测未来销售额，然后生成预测结果。
推理任务已成功完成。