AI 智能体架构在推理、规划和工具调用方面的现状揭秘

原创

已于 2024-07-02 08:21:38 修改 · 1.4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理

于 2024-07-02 08:20:35 首次发布

原文翻译：The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey

1.引言

自 ChatGPT 问世以来，首批生成式AI 应用程序主要是采用了文档检索增强生成（RAG）技术构建的聊天应用。尽管在增强RAG系统的稳定性方面已取得显著进展，但众多研究团队正致力于开发新一代AI 应用程序，它们共同聚焦于一个核心议题：agents（智能体）。

学术界在探索最新的基础模型，如 GPT-4，并通过诸如 AutoGPT 和 BabyAGI 等开源项目，致力于开发自主智能智能体系统【19,1】。与仅提供零样本提示（zero-shot prompting）的大型语言模型相比，AI 智能体系统支持更为复杂的交互和任务编排。AI 智能体系统借助规划、循环、反思等控制结构，能够充分利用其内在的推理能力，实现端到端的任务执行。此外，通过整合工具、插件和函数调用，AI 智能体系统能够执行更广泛的任务。

学术界关于单智能体与多智能体系统在解决复杂任务时的适用性讨论仍在进行。单一智能体架构在问题定义明确且无需其他智能体角色或用户反馈的情况下表现突出，而多智能体架构则在需要协作和探索多种执行途径时显示出其优势。

1.1 分类法

（Agents）：AI 智能体是能够规划和采取行动以多次迭代执行目标的语言模型驱动实体。AI 智能体架构由单个智能体或多个智能体协同工作解决问题。

通常，每个智能体都有一个角色和可以帮助他们独立或作为团队一部分完成任务的各种工具。有些智能体还包含记忆组件，可以在消息和提示之外保存和加载信息。在本文中，我们遵循由“大脑、感知和行动”组成的智能体定义【31】。这些组件满足智能体理解、推理和对环境采取行动的最低要求。

智能体人格（Agent Persona）：智能体人格描述了智能体应扮演的角色或个性，包括对该智能体的任何其他具体指示。人格还包含智能体可以访问的任何工具的描述。研究发现，“塑造的人格会显著影响大型语言模型（LLM）在常见下游任务（如撰写社交媒体帖子）中的行为”【21】。使用多个智能体人格解决问题的解决方案与要求模型逐步分解计划的思维链（CoT）提示相比，显示出显著的改进【28, 29】。

工具（Tools）：在 AI 智能体的背景下，工具代表模型可以调用的任何函数。它们允许智能体通过拉取或推送信息与外部数据源交互。例如，一个专业合同撰写人的智能体人格及其相关工具。撰写人有一个解释其角色和任务类型的人格，并配备了添加文档注释、阅读现有文档或发送最终草案电子邮件的工具。

单智能体架构（Single Agent Architectures）：这些架构由一个语言模型驱动，将独立进行所有的推理、规划和工具执行。智能体被赋予系统提示和完成任务所需的任何工具。在单智能体模式中，没有其他 AI 智能体的反馈机制，但可能有选项供人类提供反馈以引导智能体。

多智能体架构（Multi-Agent Architectures）：这些架构涉及两个或更多智能体，每个智能体可以利用相同的语言模型或一组不同的语言模型。智能体可能访问相同的工具或不同的工具。每个智能体通常都有自己的角色。多智能体架构可以在任何复杂度水平上有多种组织形式。在本文中，我们将它们分为两类：垂直架构和水平架构。这些类别代表一个光谱的两端，大多数现有架构介于这两者之间。

垂直架构（Vertical Architectures）：在这种结构中，一个智能体充当领导者，其他智能体直接向其报告。根据架构，报告智能体可能只与领导智能体通信。或者，也可能定义一个领导者，并在所有智能体之间共享对话。垂直架构的定义特征包括有一个领导智能体和在协作智能体之间明确的劳动分工。 ** 水平架构（Horizontal Architectures）**：在这种结构中，所有智能体被视为平等，并参与关于任务的一组讨论。智能体之间的通信在共享线程中进行，每个智能体都可以看到其他智能体的所有消息。智能体还可以自愿完成某些任务或调用工具，这意味着它们不需要由领导智能体分配。水平架构通常用于协作、反馈和小组讨论对任务成功至关重要的任务【2】。

2. 有效智能体的关键考虑因素

2.1 概述

智能体旨在扩展语言模型的能力以解决现实世界的挑战。成功的实现需要强大的问题解决能力，使智能体能够在新任务上表现出色。为了有效地解决现实世界的问题，智能体需要具备推理和规划能力，以及调用工具与外部环境互动的能力。在本节中，我们探讨为什么推理、规划和工具调用对智能体成功至关重要。

2.2 推理和规划的重要性

推理是构成人类认知的基础，使人们能够做出决定、解决问题并理解周围的世界。如果 AI 智能体要有效地与复杂环境互动、做出自主决策并协助人类完成广泛任务，他们需要强大的推理能力。这种“行动”和“推理”之间的紧密协同使得能够迅速学习新任务，并在之前未见过的情况下或信息不确定时实现稳健的决策或推理【32】。此外，智能体需要推理来根据新的反馈或学到的信息调整他们的计划。如果没有推理能力的智能体在执行直接任务时，可能会误解指令、仅基于字面意思做出响应，或未能考虑多步骤的影响。

规划，要求强大的推理能力，通常分为五种主要方法：任务分解、多计划选择、外部模块辅助规划、反思和改进以及记忆增强规划【12】。这些方法允许模型能够将任务分解为子任务，从多个生成的选项中选择一个计划，利用预先存在的外部计划，根据新信息修正先前的计划，或者利用外部信息改进计划。

大多数智能体模式有一个专门的规划步骤，在执行任何行动之前调用一个或多个这些技术来创建计划。例如，“像图一样计划”（PLaG）是一种将计划表示为有向图的方法，其中多个步骤并行执行【15, 33】。与其他方法相比，在包含许多独立子任务的任务上，这种方法能显著提高性能，并从异步执行中获益。

2.3 有效工具调用的重要性

与提示基本语言模型相比，智能体抽象的一个关键好处是智能体能够通过调用多个工具来解决复杂问题。这些工具使智能体能够与外部数据源交互，从现有API发送或检索信息等等。需要大量工具调用的问题往往与需要复杂推理的问题密切相关。

单智能体和多智能体架构都可以通过推理和工具调用步骤来解决具有挑战性的任务。许多方法使用多个推理、记忆和反思的迭代来有效准确地完成问题【16, 23, 32】。它们通常通过将一个更大的问题分解为更小的子问题，然后按顺序使用适当的工具解决每个子问题来实现这一点。

其他致力于推进智能体模式的工作强调，虽然将一个更大的问题分解为更小的子问题可以有效解决复杂任务，但单智能体模式常常难以完成所需的长序列【22, 6】。

多智能体模式可以解决并行任务和鲁棒性问题，因为各个智能体可以独立处理各自的子问题。许多多智能体模式从将复杂问题分解为几个较小的任务开始，然后每个智能体独立解决每个任务，使用他们各自独立的一组工具。

3. 单智能体架构

3.1 概述

在本节中，我们重点介绍一些显著的单智能体方法，如 ReAct、RAISE、Reflexion、AutoGPT + P 和 LATS。每种方法都包含在采取任何行动之前专门用于推理问题的阶段。我们选择这些方法是基于它们对智能体推理和工具调用能力的贡献。

3.2 关键主题

我们发现，智能体成功完成目标取决于适当的规划和自我修正【32, 16, 23, 1】。如果没有自我评估和制定有效计划的能力，单智能体可能会陷入无尽的执行循环，永远无法完成给定任务或返回不符合用户期望的结果【32】。我们发现，当任务需要简单的功能调用且不需要其他智能体反馈时，单智能体架构尤其有用【22】。

3.3 示例

ReAct：在 ReAct（Reason + Act）方法中，智能体首先编写给定任务的想法。然后基于这个想法执行动作，并观察结果。这个循环可以重复，直到任务完成【32】。当应用于多样的语言和决策任务时，在相同任务上，ReAct 方法展示了比零样本提示（zero-shot prompting）更高的有效性。由于模型的整个思考过程都被记录下来，从而提高了人类的可操作性和可信度。当在 HotpotQA 数据集上评估时，ReAct 方法只有 6% 的时间会产生幻觉，而使用思维链（CoT）方法时这个比例为 14%【29, 32】。

然而，ReAct 方法也有其局限性。虽然将推理、观察和行动结合在一起提高了可信度，但模型可能会重复生成相同的想法和行动，无法创建新的想法以完成任务并退出 ReAct 循环。在任务执行过程中加入人类反馈可能会提高其有效性和现实适用性。

RAISE：RAISE 方法基于 ReAct 方法，增加了一个模拟人类短期和长期记忆的记忆机制【16】。它通过使用短期存储和使用类似先前示例的数据集进行长期存储来实现这一点。通过添加这些组件，RAISE 提高了智能体在长对话中保持上下文的能力。该论文还强调了微调模型如何即使在使用较小模型时也能实现最佳性能。RAISE 在效率和输出质量上都优于 ReAct。

虽然 RAISE 在某些方面显著改进了现有方法，研究人员也指出了几个问题。首先，RAISE 在理解复杂逻辑方面存在困难，限制了其在许多场景中的适用性。此外，RAISE 智能体经常在其角色或知识方面产生幻觉。例如，一个没有明确角色定义的销售智能体可能保留编写 Python 代码的能力，这可能会导致他们开始编写 Python 代码而不是专注于销售任务。研究人员通过微调模型解决了这个问题，但幻觉仍是 RAISE 实现中的一个限制。

Reflexion：Reflexion 是一种使用语言反馈进行自我反思的单智能体模式【23】。通过利用成功状态、当前轨迹和持久记忆等指标，该方法使用 LLM 评估器向智能体提供具体和相关的反馈。成功率提高，并且与思维链和 ReAct 方法相比，幻觉减少。

尽管有这些进步，Reflexion 的作者指出了这种模式的各种局限性。首先，Reflexion 容易受到“非最优局部最小解”的影响。它还使用滑动窗口进行长期记忆，而不