【一文看懂】60+图解详解LLM智能体的‘大脑升级’之路,建议人手一份,收藏起来慢慢学!!

LLM 智能体的可视化指南

LLM(大语言模型)智能体正在快速普及,正在取代我们熟悉的"常规"对话式 LLM。这些功能需要多个组件协同工作。

这篇文章包含 60 多幅插图,带你了解 LLM 智能体领域、其主要组件以及多智能体框架。

为了便于理解我们对以下名词进行解释:

LLM: 大语言模型,基于深度学习的自然语言处理模型,如GPT-4、Claude等
LLM Agents: 大语言模型智能体,具备感知-规划-行动循环的自主系统
token: 词元,AI处理文本的最小单位

什么是 LLM 智能体?

LLM

要理解 LLM 智能体,我们首先需要了解 LLM 的基本能力。传统 LLM 本质上只做下一个词(token)预测

图片

图片

通过连续生成多个词,我们可以模拟对话,让 LLM 对查询给出更详细的回答。

但当我们持续"对话"时,任何 LLM 都会暴露出一个主要缺陷:它不会记住对话内容!

图片

LLM 还存在其他常见短板,比如基础数学运算能力差(如乘除法):

图片

增强型 LLM

我们可以通过外部工具、记忆系统和检索系统来弥补它们的不足。被称为"增强型 LLM"。

图片

例如遇到数学题时,LLM 可以选择使用合适工具(如计算器)。

图片

**那么这种"增强型 LLM"就是智能体吗?**不完全是。

Agent 智能体

我们先看看从智能体的定义:

“智能体是指任何能通过传感器感知环境,并通过执行器作用于环境的实体。”

智能体与环境互动通常包含以下关键组件:

Environments 环境:指智能体与之交互的世界。

Sensors 传感器:用于观察环境

Actuators 执行器:与环境交互的工具

Effectors 效应器:可以理解为 “大脑”,或者是决定如何从观察到行动的规则。

图片

这个框架适用于各类智能体(如与物理环境互动的机器人)。

我们可以稍微概括一下这个框架,使其适用于“增强型 LLM”。

图片

使用“增强型”LLM,智能体可以通过文本输入(因为大语言模型通常是文本模型,当然目前多模态模型支持图像、视频等)观察环境,并通过使用工具(如搜索网络)执行某些操作。

要选择要采取的行动,智能体有一个至关重要的组成部分:它的规划能力。为此,LLMs 需要能够通过思维链等方法进行 “reason 推理” 和 “think 思考”。

图片

使用推理(reasoninng),智能体将规划(planning)出要采取的必要行动。

图片

这种规划行为使智能体能够理解情况(大语言模型)、规划下一步行动(规划)、采取行动(工具)以及跟踪已采取的行动(记忆)。

这意味着智能体通过规划行为,可以利用大语言模型来了解当前的状况,确定接下来要采取的步骤,借助各种工具来执行行动,并通过记忆功能来记录已经采取过的行动,从而实现更加智能和高效的行为模式。

例如,在一个智能客服系统中,智能体可以通过分析用户的问题(理解情况),规划出回答问题的步骤(规划),调用知识库查询工具来获取相关信息(采取行动),并记住之前的交互以便更好地服务后续用户(跟踪已采取的行动)。

图片

根据系统的不同,LLM 代理有不同程度的自主性。

图片

接下来我们将通过三大核心组件(Memory 记忆Tools 工具Planning 规划)解析 LLM 智能体:

记忆系统

LLM 本身不进行任何记忆。

当提出一个 LLM 问题,然后又提出另一个问题时,它不会记住前者。

图片

我们通常将其称为短期记忆,它充当即时上下文的缓冲区。这包括 LLM 智能体最近采取的行动。

然而,LLM 智能体可能还需要跟踪潜在的几十个步骤,而不仅仅是最近的行动。

图片

这被称为长期记忆,因为理论上语言大模型代理可以采取数十甚至数百个需要被记住的步骤。

图片

短期记忆

启用短期记忆最直接的方法是使用模型的上下文窗口,它本质上是语言大模型(LLM)能够处理的 tokens 数量。

通过利用 LLM 能够处理的一定数量的 tokens,来实现对近期信息的记忆功能。

例如,当 LLM 与用户进行交互时,上下文窗口内的 tokens 可以包含最近的对话内容,从而让 LLM 在一定程度上记住近期的交互,以更好地理解和回应后续的问题。

这种方法较为简单直接,因为只需要依靠 LLM 自身的处理能力范围,即上下文窗口来实现短期记忆。

图片

目前 LLM 可以扩展到数十上百万个 token。

图片

但是它其实不是真正记住一段对话,而是基本上“告诉”语言模型那段对话是什么。

对于上下文窗口较小的模型,或者当对话历史很长时,我们可以改用另一个大语言模型来总结到目前为止发生的对话。然后作为上下文带过去给 LLM。

图片

通过不断总结对话,我们可以保持对话规模较小。这将减少 token 数量,同时只跟踪最重要的信息。

长期记忆

LLM 智能体中的长期记忆包括智能体需要在较长时间内保留的过去动作。

启用长期记忆的一种常见技术是将之前的所有交互、动作和对话存储在外部向量数据库中。

为了构建这样一个数据库,对话首先被嵌入到能够捕捉其含义的数值表示中,就是 emmbeding。

图片

构建数据库后,首先可以对给定的提示进行 embedding 处理,然后通过将该提示的 embedding 结果与数据库中的信息进行比较,从而在向量数据库中找出与之最相关的信息。

图片

这个就是通常说的检索增强生成 (RAG)。

长期记忆也可以包括用来保存来自不同会话的信息。例如,你可能希望一个 LLM 智能体记住它在之前的会话中所做的聊天。

Tools 工具

工具允许 LLM 与外部环境(如数据库)交互或使用外部应用(如自定义代码来运行)。

图片

工具通常有两个用例:获取数据以检索最新信息,以及采取行动(例如安排会议或订购食物)。

要实际使用工具,语言模型必须生成与给定工具的 API 相匹配的请求文本。

图片

还可以生成大语言模型可以使用的自定义函数,例如基本的乘法函数。这通常被称为函数调用(function call)

图片

LLM 如果被正确且充分地提示,就可以使用任何工具。工具的使用是当前大多数大型语言模型都具备的能力。

图片

智能体可以按照固定的框架来进行调用。

图片

也可以自主选择使用哪个工具以及何时使用。LLM 智能体,本质上是一系列语言模型调用(但他们具有自主选择动作/工具/等的能力)。

图片

在智能体中,中间步骤的输出被反馈到语言模型中以继续处理。

图片

Toolformer

过去几年,关于工具使用和学习的研究工作迅速增加。

图片

这项研究的大部分内容不仅涉及提示 LLM 使用工具,还包括专门针对工具使用对其进行训练。

其中最早这样做的技术之一被称为 Toolformer,决定调用哪些 API 以及如何调用。

它通过使用“[”和“]”标记来指示调用工具的开始和结束。当给出提示时,例如“5 乘以 3 是多少?”,它会开始生成内容,直到到达“[”标记。然后调用工具,并将输出添加到到目前为止生成的内容中。

图片

图片

图片

Toolformer 通过仔细生成一个包含许多可供模型训练的工具用途的数据集来创建此行为。

对于每个工具,会手动创建一个少样本提示,并用于对使用这些工具的输出进行采样。输出会根据工具使用的正确性、输出以及损失减少进行过滤。所得数据集用于训练语言大模型以遵循这种工具使用格式。

图片

自从 Toolformer 发布以来,出现了许多技术,例如可以使用数千种工具的大语言模型(ToolLLM)或可以轻松检索最相关工具的大语言模型(Gorilla)。

协议标准化(MCP)

工具(Tools)是智能体的重要组成部分,它使 LLM 能够与外部互动并扩展其能力。然而,当有许多不同的 API 时,他们的函数调用参数、定义等不同:

  1. 比如我们需要手动告诉 LLM 有哪些工具。
  2. 手动描述详细的交互参数定义(比如预期的 JSON 字段)。
  3. 在工具 API 发生变化时手动更新。

为了使工具在任何给定的智能体中更容易实现,Anthropic 提出了模型上下文协议(Model Context Protocol,MCP)。

MCP 对各类外部工具访问进行标准化,类似于 USB-C 接口,允许以一致的方式将各种数据源、工具和功能连接到 AI 模型,从而简化 AI 应用程序的开发和集成。

可以查看这边文章什么是 MCP?

图片

举个例子,假设你希望一个 LLM 智能体总结你在 Github 代码仓库中的 5 个最新提交内容。

  1. MCP 主机(与客户端一起)首先会调用 MCP 服务器,询问有哪些工具可用。图片
  2. 大语言模型(LLM)接收信息后可能会选择使用一种工具。它通过主机向模型上下文协议(MCP)服务器发送请求,然后接收结果,其中包括所使用的工具。图片
  3. 最后,大语言模型接收结果并能够向用户解析一个答案。

图片

该框架通过连接到任何 LLM 智能体都可以使用的模型上下文协议(MCP)服务器,使得创建工具调用更加容易。因此,当你创建一个 MCP 服务器来与 Github 交互时,任何支持 MCP 的语言模型应用程序都可以使用它。

Planning 规划

工具的使用是得 LLM 能力增强。通常使用类似 JSON 的请求进行调用。

但是,在智能体中,LLM 如何决定使用哪个工具以及何时使用呢?这就是规划的用武之地。LLM 智能体中的规划涉及将给定任务分解为可操作的步骤。

图片

它能够让模型对过去的行为进行反复思考,例如回顾之前的决策、行动或处理方式等。如果发现过去的行为存在问题或者当前情况发生了变化,模型就可以根据这些反思对当前的计划进行更新调整,以更好地适应新的情况或提高性能表现。

图片

要在 LLM 智能体中实现规划,让我们首先来看一下这项技术的基础:推理。

Reasoning 推理

规划可执行的步骤需要复杂的推理行为。在规划任务之前,LLM 必须具有推理能力。

在回答问题之前需要进行思考。

图片

这种推理行为可以通过大约两种选择来实现:对大语言模型进行微调特定的提示工程

借助提示工程,我们可以创建大语言模型应该遵循的推理过程示例。提供示例(也被称为少样本提示)是引导大语言模型行为的一种很好的方法。

图片

这种提供思维过程示例的方法称为“思维链”。

“思维链”也可以在没有任何示例(零样本提示)的情况下启用,只需简单地说明“让我们一步一步地思考”。

图片

在训练 LLM 时,我们可以给它提供足够数量的包含类似思考示例的数据集,或者 LLM 可以自己发现其思维过程。

DeepSeek-R1 就是一个例子,其中奖励被用于引导思维过程的使用。

图片

Reasoning and Acting 推理和行动

图片

“ReAct”,它是“Reason and Act”的缩写,是一种将推理和行动两个过程结合起来的技术。意味着它不仅进行推理,还会根据推理结果采取行动,例如调用工具等。

相比“Chain-of-Thought”只专注于推理,ReAct 更加全面地涵盖了从思考到行动的整个过程。

图片

ReAct 通过仔细的提示工程来实现这一点。ReAct 提示描述了三个步骤:

  • Thought 思考 - 关于当前情况的推理步骤
  • Action 动作 - 要执行的一组作 (例如,工具)
  • Observation 观察 - 关于动作结果的推理步骤

图片

大语言模型(LLM)使用这个提示(它可以用作系统提示)来引导其行为,使其在思考、行动和观察的循环中工作。

这个提示被用来指导 LLM 在处理任务时,先进行思考,基于思考决定采取哪些行动,然后观察行动的结果,之后再根据观察到的结果进行下一轮的思考、行动和观察,如此循环往复,以更好地完成任务。

例如,在回答一个复杂问题时,LLM 可能先思考问题的关键要点,然后采取查询相关信息等行动,接着观察查询到的信息,再根据观察结果进一步思考并调整行动。

图片

它会持续进行,直到最终完成任务并返回结果。

Reflecting 反思

即使是使用了 ReAct 的大型语言模型也无法完美地执行每一个任务,当出现问题或任务未完美完成时,通过反思可以从中吸取教训,以便在后续的行动中做出调整和改进。

该方法设定了三个大语言模型(LLM)的角色:

  • Actor(执行者):根据状态观察来选择并执行行动。可以使用诸如思维链(Chain-of-Thought)或反应(ReAct)这样的方法。
  • Evaluator(评估者):对执行者产生的输出进行评分。
  • Self-reflection(自我反思者):对执行者采取的行动以及评估者生成的分数进行反思。

图片

通过记忆模块记录智能体的行动和自我反思,使得智能体能够在后续的运行中回顾这些记录,从而发现自己的错误并找到改进的方法。

通过不断地细化输出和生成反馈,来提高智能体的表现。

图片

图片

这种自我反思行为在机制上与强化学习有相似之处,都是根据输出的质量来给予某种形式的反馈(类似于强化学习中的奖励)。

多智能体协作

单个智能体存在一些问题:工具过多可能会使选择变得复杂,上下文会变得过于复杂,并且任务可能需要专业化。

相反,我们可以关注多智能体,在多智能体框架中,多个智能体(每个智能体都可以访问工具、内存和规划)相互之间以及与它们的环境进行交互。

图片

这些多智能体系统通常由专业的智能体组成,每个智能体都配备有自己的工具集,并由一个监管者进行监督。监管者管理智能体之间的通信,并可以向专业智能体分配特定任务。

图片

每个智能体可能拥有不同类型的工具,但也可能有不同的记忆系统。

在实际应用中,有许多多智能体架构,其核心有两个组成部分:

  • 智能体初始化——单个智能体是如何创建的?
  • 智能体编排——所有智能体是如何协调的?

图片

Agent 框架

无论哪种框架,它们通常由几个要素组成,包括其配置文件、对环境的感知、记忆、规划以及可用的行动。

图片

流行的框架有 AutoGen、MetaGPT 和 CAMEL 等。每个框架在处理各个智能体之间的通信方式上略有不同。

例如对于 CAMEL,用户首先创建问题并定义 AI 用户和 AI 助手角色。AI 用户角色代表人类用户并将引导整个过程。

图片

之后,AI 用户和 AI Assistant 将通过相互交互来协作解决查询问题。

图片

在过去的一年里,这些框架的增长呈爆炸式增长。

图片

未来展望

随着工具学习、记忆增强和规划算法的发展,LLM 智能体正在突破传统对话系统的局限。关键趋势包括:

• 更强大的自主决策能力

• 更自然的工具使用方式

• 多模态感知与交互

• 社会化的智能体协作网络

希望这篇翻译能帮助您更好地理解 LLM 智能体的核心原理与最新进展!

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值