【收藏级干货】AI Agent实战：基于大模型的智能体构建与部署全攻略-优快云博客

文章介绍了AI Agent的概念、架构与应用。AI Agent是能感知环境、决策和执行的智能实体，由大模型、感知和行动模块构成。文章详解了三大核心模块：大脑模块（推理规划）、感知模块（多模态输入处理）和行动模块（文本输出与工具使用）。最后探讨了面向任务、创新和生命周期的三种部署方式，展示了AI Agent在自动化任务、科学探索和长期学习方面的潜力。

1、Al Agent是什么?

Al Agent(也称人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样，它有记忆、有逻辑分析能力、有任务的拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力。
Al Agent也可以称为“智能体”，也可理解为“智能业务助理”，旨在大模型技术驱动下，让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务，从而极大程度释放人员精力。
Agent其实基本就等于"大模型+插件+执行流程/思维链”，分别会对应控制端(Brain/大脑)、感知端(Preception)、执行端(Action)环节，如下，

在这里插入图片描述

Al Agent发展迅速，出现多款“出圈”级研究成果。2023年3月起，Al Agent领域迎来了第一次“出圈”，西部世界小镇、BabyAGI、AutoGPT 等多款重大Agent 研究项目均在短短两周内陆续上线，引发了大家对Al Agent领域的关注。

Agent研究对LLM研究的贡献

将LLM提升为Agent标志着向人工通用智能(AGI)迈出了更坚实的一步。从Agent的角度来看待LLM，对LLM研究提出了更高的要求，同时也扩大了LLM的应用范围，为实际应用提供了大量机会。

LLM的研究方向:对LLM的研究不再局限于涉及文本输入和文本输出的传统任务，如文本分类、问题解答和文本摘要。取而代之的是，研究重点已转向处理复杂任务，这些任务包含更丰富的输入模式和更广阔的行动空间。
LLM的行动能力:大量研究旨在扩展LLM的行动能力，让它们掌握更多的技能，例如在拟或物理环境中使用工具或与机器人API接口。
Multi-Agent系统领域:希望LLM-based Agent能在社会合作中扮演不同的角色，参与涉及协作、竞争和协调的社会互动。

2、Agent的构建

在这里插入图片描述

图:LLM-based Agent的概念框架，大脑、感知、行动三个部分组成

一个基于大模型的 Al Agent系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。

Al Agent可能会成为新时代的开端，其基础架构可以简单划分为 Agent=LLM+规划技能 +记忆+工具使用， LLM 扮演了Agent的“大脑”，在系统中提供推理、规划等能力。

2.1 大脑模块

大脑主要由一个大型语言模型组成，不仅存储知识和记忆，还承担着信息处理和决策等功能，并可以呈现推理和规划的过程，能很好地应对未知任务。
运行机制:为确保有效交流，自然语言交互能力至关重要。在接收感知模块处理的信息后，大脑模块首先转向存储，在知识中检索并从记忆中回忆。


记忆类型	映射	例子
感觉记忆	学习原始输入的嵌入表示，包括文本、图像或其他形式，短暂保留感觉印象	看一张图片，然后在图片消失后能够在脑海中回想起它的视觉印象
短期记忆	上下文学习(比如直接写入prompt中的信息)，处理复杂任务的临时存储空间，受有限的上下文的长度限制	在进行心算时记住几个数字，但短期记忆是有限的，只能暂时保持几个项目
长期记忆	在查询时agent可以关注的外部向量存储，具有快速检索和基本无限的存储容量	学会骑自行车后，多年后再骑起来时仍能掌握这项技能，这要归功于长期记忆的持久存储

（1）自然语言交互

作为一种交流媒介，语言包含着丰富的信息。除了直观表达的内容，背后还可能隐藏着说话者的信念、愿望和意图。

由于LLM本身具有强大的自然语言理解和生成能力，Agent不仅可以熟练地使用多种语言进行基本的交互式对话，还能有深入理解能力，使人类能够轻松地理解Agent并互动。

（2）多轮交互对话

多轮对话能力是有效和一致交流的基础。作为大脑模块的核心，LLM能够理解自然语言并生成连贯且与上下文相关的回复，从而帮助Agent更好地理解和处理各种问题。然而，即使是人类也很难在一次交流中不出现混乱，因此需要多轮对话。

与 SQuAD 等传统的纯文本阅读理解任务相比，多轮对话具有以下几个特点:

具有交互性，涉及多个说话者，缺乏连续性;
可能涉及多个话题，对话信息也可能是冗余的，使得文本结构更加复杂。

一般来说，多轮对话主要分为三个步骤：

了解自准语言对话的历史;
决定采取什么行动；
生成自然语言回应。

LLM-based Agent能够利用现有信息不断完善输出，进行多轮对话并有效实现最终目标。

高质量的自然语言生成: 最新的LLM展示了卓越的自然语言生成能力，可持续生成多种语言的高质量文本。这些语言模型可以“适应调节文本的风格和内容”，而像ChatGPT这样的模型在语法错误检测方面表现出色，凸显了其强大的语言能力。

意图和含义理解: 尽管在大规模语料库中训练出来的模型已经具有足够的智能来理解指令,但它们中的大多数仍无法模拟人类对话或充分利用语言所传达的信息。

要想与其他智能机器人进行有效的交流与合作，理解其隐含的意思至关重要，并使人们能够解释他人的反馈。

LLMs的出现凸显了基础模型在理解人类意图方面的潜力，但当涉及到模糊指令或其他含义时，就会给Agent带来巨大挑战。

（3）知识

在大规模数据集上训练的语言模型可以将各种知识编码到其参数中，并对各种类型的查询做出正确的反应。

所有这些知识可大致分为以下几类:

语言知识:语言知识表现为一个约束系统，即语法，定义了语言的所有和句子
常识知识:常识性知识指的是大多数人在幼年时就已掌握的世界常识。
专业领域知识:专业领域知识是指与特定领域相关的知识。

（4）记忆

在本文的框架中，“记忆”存储了Agent过去的观察、思考和行动序列，这与 Nuxoll 等人提出的定义类似。

在面对复杂问题时，记忆机制能帮助行为主体有效地重新审视和应用先前的策略。此外，这些记忆机制还能使个体借鉴过去的经验，适应陌生的环境。

随着LLM-based Agent互动周期的扩大，出现了两个主要挑战。

第一个挑战与历史记录的长度有关。LLM-based Agent以自然语言格式处理先前的交互并将历史记录附加到每个后续输入中。
第二个挑战是提取相关记忆的难度。当Agent积累了大量的历史观察和行动序列时，它们就会面临不断升级的记忆负担。

（5）提高记忆能力的方法：

下面介绍几种增强LLM-based Agent记忆能力的方法。

提高Trransformer的输入长度限制:第一种方法试图解决或减轻固有的序列长度限制。由于这些固有限制，Transformer架构很难处理长序列。
总结记忆:提高记忆效率的第二种策略取决于记忆总结的概念。这能确保Agent毫不费力地从历史互动中提取关键细节。

用向量或数据结构压缩记忆:通过采用合适的数据结构，智能Agent可提高记忆检索效率，促进对交互做出迅速反应。

（6）记忆检索方法

当Agent与其环境或用户交互时，必须从其内存中检索最合适的内容。这可确保Agent访问相关的准确信息，以执行特定操作。

这就产生了一个重要问题:Agent如何选择最合适的存储器?通常情况下，Agent要求存储器具有自动检索记忆的能力。

自动检索的一个重要方法是考虑三个指标:最近性(Recency)、相关性(Relevance)和重要性(Importance)。

记忆得分由这些指标加权组合而成，得分最高的记忆在模型的上下文中被优先考虑。

（7）推理和规划

推理(Reasoning):推理以证据和逻辑为基础，是人类智力活动的根本，是解决问题、决策和批判性分析的基石。演绎、归纳和归纳是智力活动中常见的主要推理形式。

规划(Planning):规划是人类在面对复杂挑战时采用的一种关键策略。对人类来说，规划有助于组织思维、设定目标和确定实现这些目标的步骤。

计划制定:在制定计划的过程中，Agent通常会将总体任务分解成许多子任务，在这一阶段，人们提出了各种方法。
计划反思:制定计划后，必须对其优点进行反思和评估。LLM-basedAgent可利用内部反馈机制(通常是从已有模型中汲取灵感)来完善和改进其战略和规划方法。

（8）可迁移性和通用性

在大规模语料库上预先训练的模型可以学习通用语言表征。利用预训练模型的强大功能，只需少量数据进行微调，LLMs就能在下游任务中表现出卓越的性能。

看不见的任务泛化:LLMS可以根据自己的理解，按照指令完成在训练阶段没有遇到过的新任务。

情境学习:大量研究表明，LLM 可以通过上下文学习(ICL)完成各种复杂任务，上下文学习指的是模型从上下文中的几个例子中学习的能力。
持续学习:最近的研究强调了LLM 的规划能力在促进Agent持续学习方面的潜力，这涉及技能的持续获取和更新。

2.2 感知模块

感知模块的核心目的是将Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。

（1）文本输入

LLM-based Agent已经具备了通过文本输入和输出与人类交流的基本能力。在用户的文本输入中，除了明确的内容外，还隐藏着信念、愿望和意图。

（2）视觉输入

视觉输入通常包含大量有关世界的信息，包括Agent周围环境中物体的属性、空间关系、场景布局等。因此，将视觉信息与其他模式的数据整合在一起，可以为Agent提供更广泛的背景和更精确的理解，加深Agent对环境的感知。

（3）听觉输入

一个非常直观的想法是，Agent可以将 LLMS用作控制中心，以级联方式调用现有工具集或模型库来感知音频信息。

（4）其他输入

如前所述，许多研究都对文本、视觉和音频的感知单元进行了研究。然而，LLM-basedAgent可能会配备更丰富的感知模块。未来，它们可以像人类一样感知和理解现实世界中的各种模式。

2.3 行动模块

人类在感知环境后，大脑会对感知到的信息进行整合、分析和推理，并做出决策。随后，他们利用神经系统控制自己的身体，做出适应环境或创造性的行动，如交谈、躲避障碍或生火。

（1）文本输出

基于Transformer的大型语言生成模型的兴起和发展，赋予了LLM-based Agent以固有的语言生成能力。它们生成的文本质量在流畅性、相关性、多样性和可控性等各个方面都出色。

（2）工具使用

工具是工具使用者能力的延伸。在面对复杂任务时，人类会使用工具来简化任务的解决过程并提高效率，从而节省时间和资源。

LLM-based Agent决策过程缺乏透明度，使其在医疗保健和金融等高风险领域的可信度较低。

LLM 容易受到对抗性攻击，对轻微输入修改的鲁棒性不足。相比之下，借助工具完成任务的Agent则表现出更强的可解释性和鲁棒性。

理解工具:Agent有效使用工具的前提是全面了解工具的应用场景和调用方法。没有这种理解，Agent使用工具的过程将变得不可信，也无法真正提高Agent的能力。
使用工具:Agent学习使用工具的方法主要包括从demonstartion中学习和从reward中学习(清华有一篇从训练数据中学习的文章)。
制作自给自足的工具:现有的工具往往是为方便人类而设计的，这对Agent来说可能不是最佳选择。为了让Agent更好地使用工具，需要专门为Agent设计工具。
工具可以拓展LLM-based Agent的行动空间:在工具的帮助下，Agent可以在推理和规划阶段利用各种外部资源，如外部数据库和网络应用程序。

最近的研究表明，利用在 LLM 预训练期间获得的丰富内部知识可以有效缓解这些问题:

成本效益:一些基于策略的算法在样本效率方面存在困难。
具身动作泛化:面对错综复杂、未知的真实世界环境，Agent必须具备动态学习和泛化能力。
嵌入式行动规划:规划是人类和LLM-based Agent在应对复杂问题时采用的关键策略。

具身action for LLM-based Agent:根据Agent在任务中的自主程度或行动的复杂程度，有几种基于LLM 的基本具身行动，主要包括观察、操纵和导航。

观察:观察是Agent获取环境信息和更新状态的主要方式，对提高后续体现行动的效率起着至关重要的作用。
操纵:一般情况下，具身Agent的操纵任务包括物体重新排列、桌面操纵和移动操纵。典型的情况是，Agent在厨房执行一系列任务，包括从抽屉中取出物品并递给用户，以及清洁面。
导航:导航允许Agent动态地改变其在环境中的位置，这通常涉及多角度和多目标观测，以及基于当前探索的远距离操作。

通过整合这些功能，Agent可以完成更复杂的任务，如体现式问题解答，其主要目标是自主探索环境并回答预先定义的多模态问题。

3、部署

3.1 面向任务的部署

LLM-based Agent可以理解人类的自然语言指令并执行日常任务，是目前最受用户青睐、最具实用价值的Agent之一。这是因为它们具有提高任务效率、减轻用户工作量和促进更广泛用户访问的潜力。在面向任务的部署中，Agent遵从用户的高级指令，承担目标分解、子目标规划、环境交互探索等任务，直至实现最终目标。为了探索Agent是否能够执行基本任务，部分学者将它们部署到基于文本的游戏场景中。在这类游戏中，Agent完全使用自然语言与世界互动。通过阅读周围环境的文字描述，并利用记忆、规划和试错等技能，它们可以预测下一步行动。然而，由于基础语言模型的局限性，Agent在实际执行过程中往往依赖于强化学习。随着LLM的逐步发展，具备更强文本理解和生成能力的Agent在通过自然语言执行任务方面展现出巨大潜力。由于过于简单，基于文本的简单场景不足以作为LLM-based Agent的测试场所。为了满足这一需求，我们构建了更真实、更复杂的模拟测试环境。根据任务类型，我们将这些模拟环境分为网络场景和生活场景，并介绍Agent在其中扮演的具体角色。

在网络场景中:

在网络场景中代表用户执行特定任务被称为网络导航问题。Agent解释用户指令，将其分解为多个基本操作，并与计算机进行交互。

生活场景中:

在生活场景中的许多日常家务劳动中，Agent必须理解隐含指令并应用常识性知识。对于完全基于海量文本训练的LLM-based Agent来说，人类认为理所当然的任务可能需要多次试错尝试。更现实的场景往往会产生更模糊、更微妙的任务。

3.2 面向创新的部署：

LLM-based Agent在执行任务和提高重复性工作的效率方面表现出了强大的能力。然而，在智力要求更高的领域，如前沿科学领域，Agent的潜力尚未得到充分发挥。

这种局限性主要来自两个方面的挑战:

一方面，科学本身的复杂性构成了重大障碍，许多特定领域的术语和多维结构难以用单一文本表示。
另一方面，科学领域严重缺乏合适的训练数据，使得Agent难以理解整个领域的知识。

3.3 面向生命周期的部署：

在一个开放、未知的世界中，建立一个能够不断探索、发展新技能并保持长期生命周期的、具有普遍能力的Agent是一项巨大的挑战。

图：基于 LLM 的多个代理的交互场景。在合作互动中，代理以无序或有序的方式进行协作，以实现共同目标。在对抗式交互中，代理以针锋相对的方式展开竞争，以提高各自的性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】