文章目录
本文是翻译自Anthropic公司的文章,建议读一下原文。
构建高效的智能体
2024年12月20日
过去一年,我们与各行业的数十个团队合作构建大型语言模型(LLM)智能体。我们发现,最成功的实现并非使用了复杂的框架或专门的库,而是采用了简单、可组合的模式。
在这篇文章中,我们将分享我们从与客户合作以及自己构建智能体的过程中学到的经验,并为开发人员提供构建有效智能体的实用建议。
什么是智能体?
“智能体”可以有多种定义。一些客户将智能体定义为完全自主的系统,它们可以长时间独立运行,并使用各种工具来完成复杂的任务。另一些人则使用这个术语来描述更具规范性的实现,即遵循预定义的工作流程。在Anthropic,我们将所有这些变体都归类为智能体系统,但我们在架构上区分了工作流程和智能体:
- 工作流程 workflows是指通过预定义的代码路径编排 LLM 和工具的系统。
- 智能体 agents则指的是 LLM 动态地指导其自身过程和工具使用,并保持对完成任务方式的控制的系统。
下面,我们将详细探讨这两种类型的智能体系统。在附录 1(“实践中的智能体”)中,我们将描述客户发现使用这些类型系统特别有价值的两个领域。
何时(以及何时不)使用智能体
在使用 LLM 构建应用程序时,我们建议寻找尽可能简单的解决方案,只有在必要时才增加复杂性。这可能意味着完全不构建智能体系统。智能体系统通常会牺牲延迟和成本来换取更好的任务性能,你应该考虑这种权衡何时有意义。
当需要更多的复杂性时,对于定义明确的任务,工作流程提供可预测性和一致性,而当需要灵活性和模型驱动的决策时,智能体是更好的选择。然而,对于许多应用程序来说,使用检索和上下文示例优化单个 LLM 调用通常就足够了。
何时以及如何使用框架
有许多框架可以使智能体系统的实现更容易,包括:
- LangChain 的 LangGraph;
- 亚马逊 Bedrock 的 AI 智能体框架;
- Rivet,一个拖放式 GUI LLM 工作流程构建器;以及
- Vellum,另一个用于构建和测试复杂工作流程的 GUI 工具。
这些框架通过简化诸如调用 LLM、定义和解析工具以及链接调用之类的标准底层任务,使入门变得容易。但是,它们通常会创建额外的抽象层,从而模糊底层提示和响应,使调试更加困难。当一个更简单的设置就足够时,它们也可能会诱使你增加复杂性。
我们建议开发人员首先直接使用 LLM API:许多模式可以在几行代码中实现。如果你确实使用了框架,请确保你了解底层代码。对底层代码的错误假设是客户错误的常见来源。
请参阅我们的 cookbook 获取一些示例实现。
构建模块(blocks)、工作流程(workflows)和智能体(agents)
在本节中,我们将探讨我们在生产中看到的智能体系统的常见模式。我们将从我们的基础构建块——增强的 LLM 开始,逐步增加复杂性,从简单的组合工作流程到自主智能体。
构建模块building block:增强的 LLM the augmented LLM
智能体系统的基本构建块是使用检索、工具和记忆(retrieval,tools,memory)等增强功能增强的 LLM。我们目前的模型可以主动使用这些功能——生成自己的搜索查询,选择合适的工具,并确定要保留哪些信息。
我们建议关注实现的两个关键方面:根据你的特定用例定制这些功能,并确保它们为你的 LLM 提供简单、文档完善的接口。虽然有很多方法可以实现这些增强功能,但一种方法是通过我们最近发布的 模型上下文协议,该协议允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。
在本文的其余部分,我们将假设每个 LLM 调用都可以访问这些增强功能。
工作流程:提示链 workflow prompt chaining
提示链将任务分解为一系列步骤,其中每个 LLM 调用都会处理前一个调用的输出。你可以在任何中间步骤添加程序检查(请参阅下图中的“gate”),以确保该过程仍在按计划进行。
何时使用此工作流程: 此工作流程非常适合可以将任务轻松干净地分解为固定子任务的情况。主要目标是通过使每个 LLM 调用成为更简单的任务来权衡延迟以获得更高的准确性。
提示链有用的示例:
- 生成营销文案,然后将其翻译成不同的语言。
- 编写文档大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。
工作流程:路由 workflow routing
路由对输入进行分类,并将其定向到专门的后续任务。此工作流程允许关注点分离,并构建更专业的提示。如果没有此工作流程,优化一种输入可能会损害其他输入的性能。
何时使用此工作流程: 路由适用于存在最好单独处理的不同类别,并且可以由 LLM 或更传统的分类模型/算法准确处理分类的复杂任务。
路由有用的示例:
- 将不同类型的客户服务查询(一般问题、退款请求、技术支持)定向到不同的下游流程、提示和工具。
- 将简单/常见的问题路由到较小的模型(如 Claude 3.5 Haiku),将困难/不常见的问题路由到更强大的模型(如 Claude 3.5 Sonnet),以优化成本和速度。
工作流程:并行化 parallelization
LLM 有时可以同时处理一个任务,并以编程方式聚合它们的输出。这种工作流程(并行化)主要体现在两种变体中:
- 分段: 将任务分解为并行运行的独立子任务。
- 投票: 多次运行同一任务以获得不同的输出。
何时使用此工作流程: 当可以并行化划分的子任务以提高速度,或者当需要多个视角或尝试以获得更高的结果置信度时,并行化是有效的。对于有多个考虑因素的复杂任务,当每个考虑因素都由单独的 LLM 调用处理时,LLM 的性能通常会更好,从而可以专注于每个特定方面。
并行化有用的示例:
- 分段:
- 实施安全防护,其中一个模型实例处理用户查询,而另一个模型实例筛选它们以查找不适当的内容或请求。这往往比让同一个 LLM 调用同时处理安全防护和核心响应效果更好。
- 自动化评估,以评估 LLM 性能,其中每个 LLM 调用评估模型在给定提示下性能的不同方面。
- 投票:
- 审查一段代码以查找漏洞,其中几个不同的提示会审查代码,如果发现问题,则会标记该代码。
- 评估给定内容是否不适当,使用多个提示评估不同的方面或需要不同的投票阈值,以平衡误报和漏报。
工作流程:协调器-工作者 Orchestrator-works
在协调器-工作者工作流程中,中央 LLM 动态地分解任务,将其委托给工作者 LLM,并综合它们的结果。
何时使用此工作流程: 此工作流程非常适合无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量和每个文件中更改的性质可能取决于任务)。虽然在地形上相似,但与并行化的关键区别在于其灵活性——子任务不是预定义的,而是由协调器根据特定输入确定的。
协调器-工作者有用的示例:
- 每次对多个文件进行复杂更改的编码产品。
- 涉及从多个来源收集和分析信息以查找可能的相关信息的搜索任务。
工作流程:评估器-优化器 evaluator-optimizer
在评估器-优化器工作流程中,一个 LLM 调用生成响应,而另一个 LLM 调用在循环中提供评估和反馈。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
何时使用此工作流程: 当我们有明确的评估标准,并且迭代改进提供可衡量的价值时,此工作流程特别有效。适合性的两个标志是,首先,当人类表达他们的反馈时,LLM 响应可以得到明显的改进;其次,LLM 可以提供这种反馈。这类似于人类作家在创作精美文档时可能经历的迭代写作过程。
评估器-优化器有用的示例:
- 文学翻译,其中翻译器 LLM 最初可能无法捕捉到细微之处,但评估器 LLM 可以提供有用的评论。
- 需要多轮搜索和分析以收集全面信息的复杂搜索任务,其中评估器决定是否需要进一步搜索。
智能体
随着 LLM 在理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复等关键能力方面逐渐成熟,智能体开始出现在生产中。智能体开始工作时,要么接受人类用户的命令,要么与人类用户进行互动讨论。一旦任务明确,智能体就会独立计划和运行,可能会返回人类以获取更多信息或判断。在执行过程中,智能体必须在每个步骤中从环境中获得“真实情况”(例如工具调用结果或代码执行),以评估其进度。然后,智能体可以在检查点或遇到阻塞时暂停以获取人类反馈。任务通常会在完成时终止,但也通常包括停止条件(例如,最大迭代次数)以保持控制。
智能体可以处理复杂的任务,但它们的实现通常很简单。它们通常只是在循环中根据环境反馈使用工具的 LLM。因此,至关重要的是清晰而周到地设计工具集及其文档。我们将在附录 2(“提示工程你的工具”)中扩展有关工具开发的最佳实践。
何时使用智能体: 智能体可用于开放式问题,在这些问题中,很难或不可能预测所需的步骤数,并且无法硬编码固定路径。LLM 可能会运行多个回合,你必须对其决策有一定的信任。智能体的自主性使它们成为在受信任环境中扩展任务的理想选择。
智能体的自主性意味着更高的成本,以及复合错误的潜力。我们建议在沙盒环境中进行广泛的测试,并采取适当的安全措施。
智能体有用的示例:
以下示例来自我们自己的实现:
组合和自定义这些模式
这些构建块不是强制性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何 LLM 功能一样,成功的关键在于衡量性能并迭代实现。重申一下:只有当它能显著改善结果时,你才应该考虑增加复杂性。
总结
在 LLM 领域的成功不在于构建最复杂的系统,而在于构建适合你需求的正确系统。从简单的提示开始,使用全面的评估对其进行优化,并且仅当更简单的解决方案不足时才添加多步骤智能体系统。
在实施智能体时,我们尝试遵循三个核心原则:
- 保持智能体设计的简单性。simplicity
- 通过明确显示智能体的计划步骤来优先考虑透明度。 transparency
- 通过全面的工具文档和测试精心制作你的智能体-计算机接口(ACI)。
框架可以帮助你快速入门,但当你转向生产时,请毫不犹豫地减少抽象层并使用基本组件构建。通过遵循这些原则,你可以创建不仅强大而且可靠、可维护并受到用户信任的智能体。
致谢
由 Erik Schluntz 和 Barry Zhang 撰写。这项工作借鉴了我们在 Anthropic 构建智能体的经验以及客户分享的宝贵见解,对此我们深表感谢。
附录 1:实践中的智能体
我们与客户的合作揭示了人工智能智能体的两个特别有前途的应用程序,它们展示了上面讨论的模式的实际价值。这两个应用程序都说明了智能体如何为需要对话和操作、具有明确的成功标准、启用反馈循环以及集成有意义的人工监督的任务增加最大的价值。
A. 客户支持
客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。这非常适合更开放的智能体,因为:
- 支持交互自然地遵循对话流程,同时需要访问外部信息和操作;
- 可以集成工具以提取客户数据、订单历史记录和知识库文章;
- 可以以编程方式处理诸如发放退款或更新票证之类的操作;并且
- 可以通过用户定义的解决方案清楚地衡量成功。
几家公司已通过按使用量定价的模型证明了这种方法的可行性,这些模型仅对成功的解决方案收费,从而显示了他们对智能体有效性的信心。
B. 编码智能体
软件开发领域已显示出 LLM 功能的巨大潜力,功能从代码补全演变为自主解决问题。智能体特别有效,因为:
- 可以通过自动测试验证代码解决方案;
- 智能体可以使用测试结果作为反馈来迭代解决方案;
- 问题空间定义明确且结构化;并且
- 可以客观地衡量输出质量。
在我们自己的实现中,智能体现在可以仅根据拉取请求描述来解决 SWE-bench Verified 基准测试中的实际 GitHub 问题。但是,虽然自动测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。
附录 2:提示工程你的工具 Prompt engineering your tools
无论你构建的是哪种智能体系统,工具都可能是你智能体的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定它们的精确结构和定义来与外部服务和 API 交互。当 Claude 响应时,如果它计划调用工具,它将在 API 响应中包含一个工具使用块。工具定义和规范应像你的整体提示一样受到提示工程的重视。在这个简短的附录中,我们将介绍如何提示工程你的工具。
通常有几种方法可以指定相同的操作。例如,你可以通过编写差异或重写整个文件来指定文件编辑。对于结构化输出,你可以在 Markdown 或 JSON 中返回代码。在软件工程中,像这样的差异是表面上的,并且可以从一种无损地转换为另一种。但是,某些格式比其他格式更难让 LLM 编写。编写差异需要知道在写入新代码之前在块头中有多少行更改。与 Markdown 相比,在 JSON 中编写代码需要对换行符和引号进行额外的转义。
我们关于决定工具格式的建议如下:
- 在它将自己写进死胡同之前,给模型足够的令牌“思考”。
- 保持格式接近模型在互联网上的文本中自然看到的内容。
- 确保没有格式化“开销”,例如必须保持对数千行代码的准确计数,或对它编写的任何代码进行字符串转义。
一个经验法则是考虑在人机界面(HCI)上付出了多少努力,并计划在创建良好的人工智能-计算机界面(ACI)上投入同样的努力。以下是一些关于如何做到这一点的想法:
- 站在模型的角度思考。根据描述和参数,很明显如何使用此工具吗?还是你需要仔细考虑它?如果是这样,那么模型可能也是如此。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的明确界限。
- 如何更改参数名称或描述以使事情更明显?可以将其视为为团队中的初级开发人员编写一个很棒的文档字符串。当使用许多类似的工具时,这尤其重要。
- 测试模型如何使用你的工具:在我们的工作台中运行许多示例输入,查看模型会犯哪些错误并进行迭代。
- 防错你的工具。更改参数,使错误更难发生。
在构建我们的 SWE-bench 智能体时,我们实际上花费了更多的时间来优化我们的工具,而不是整体提示。例如,我们发现模型在智能体移出根目录后会使用相对文件路径的工具出错。为了解决这个问题,我们将该工具更改为始终需要绝对文件路径——我们发现模型完美地使用了这种方法。