一文纵览AI Agent全解析：定义、构成要素与构建指南

最新推荐文章于 2025-07-26 13:58:21 发布

原创最新推荐文章于 2025-07-26 13:58:21 发布 · 1.5k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #运维 #算法 #agent #大模型入门 #大模型学习

部署运行你感兴趣的模型镜像

在当今数字化时代，AI技术正以前所未有的速度改变着我们的生活和工作方式，其中AI Agent（智能体）作为一项前沿应用，受到了广泛关注。从通用型AI助手如Manus，到专注于特定领域的垂直Agent，它们都在各自领域发挥着重要作用，展现出强大的功能和潜力。本文将为您详细介绍AI Agent的定义、构成、发展阶段以及构建方法等内容，帮助您更好地了解这一领域。需要说明的是，本文中不少内容来源于网络整理与整合，旨在为您提供一个全面且系统的视角，以更好地把握AI Agent的核心要点和发展趋势。

一、Agent介绍

1、有哪些Agent

2、通用 Agent

Manus： https://manus.im/

💡Manus 是一款通用型 AI 助手，能将想法转化为行动：不止于思考，更注重成果。Manus 擅长处理工作与生活中的各类任务，在你安心休息的同时，一切都能妥善完成。

2025年3月6日，中国创业团队Monica发布一款名为Manus的产品，在评估通用人工智能助手解决现实世界问题的GAIA基准测试中， Manus取得了最先进(SOTA, State-of-the-Art)的成绩，性能超越OpenAI Deep Research。
作为全球首款真正意义上的通用AI Agent，Manus能够独立思考、规划并执行复杂任务，直接交付完整成果。其名称来源于拉丁语 "Mens et Manus”，意为手脑并用，将知识用手执行。

基准测试：GAIA 是评估通用人工智能助手解决实际问题能力的基准。 Manus 在所有三个难度级别上取得了新的最新技术 (SOTA) 绩效。

官网开放案例清单：

运行示例：https://manus.im/share/j7BUZNaC7vxEpqBU5GYQOR?replay=1

天工： https://www.tiangong.cn/

运行示例：苹果 2025 年新品发布计划 - 表格模式、古人性格与MBTI分析 - PPT 模式

垂直Agent

Cursor ——AI 编程
Lovart——设计Agent
其他垂直场景 Agent

二、智能体定义

AI Agent是一种能够自主感知环境（如数据、用户输入、物理状态）、分析信息、制定决策并执行动作以实现特定目标的智能应用。其核心在于模仿人类或生物的智能行为，在复杂环境中完成任务甚至规划长期目标。

1、智能体与工作流

智能体（Agent）则能够自主为用户执行同样的流程。智能体是在高度自主的前提下，代表用户完成任务的系统。

工作流程（workflow）指为实现用户目标必须依次执行的一系列步骤，例如解决客服问题、预订餐厅、提交代码变更，或生成数据报告。

非智能体场景：将 LLM 集成到应用中却不让它控制流程执行（如简单聊天机器人、单轮问答 LLM、情绪分类器等）——这些都不属于智能体。

表：将 AI 和人类协作的程度类比自动驾驶的不同阶段

数据来源：甲子光年

2、大模型与 Agent 的关系与区别

Agent VS LLM：模型的知识仅限于其训练数据，AI Agent通过工具连接外部系统，在模型自带的知识之外，实时、动态扩展知识。
模型缺乏原生逻辑层，需借助提示词工程或使用推理框架（CoT、ReAct等）来形成复杂提示，指导模型进行预测，而AI Agent自带原生认知架构，内置CoT、ReAct等推理框架或LangChain等编排框架。

表：AI Agent与AI模型的区别

3、智能体的构成

AI Agent的基础组件包括：模型(model)、工具(tool)、记忆(memory)、规划(planning)。

模型(model)：Agent中用来做核心决策的大脑，可以是一个或多个任何大小的模型。
规划(planning)：将大型任务分解成较小的、可管理的子目标，从而高效处理复杂任务。
工具(tool)：基础模型在文本和图像生成方面非常强大，但无法与外部世界联动，有了工具，Agent便能够与外部数据和服务互动。
记忆(memory)：用于获取、存储、保留和稍后检索信息的过程，帮助Agent积累经验、自我进化，以更一致、合理有效的方式行动。

图：LLM驱动的AI Agent系统

记忆

结构上，memory模块通常包含短期记忆和长期记忆，短期记忆暂存最近的感知，长期记忆存储重要信息供随时检索。
格式上，可以用自然语言表达，或编码为向量嵌入提高检索效率；可以利用数据库存储，或组织为结构化列表表示内存语义。
操作上，主要通过记忆读取、写入和反射三种机制与环境交互；读取提取相关信息指导行动，写入存储重要信息，反射总结见解提升抽象水平。

向量数据库利用人工智能中的 Embedding 方法，将图像、音视频等非结构化数据抽象、转换为多维向量，由此可以结构化地在向量数据库中进行管理，从而实现快速、高效的数据存储和检索过程，赋予了 Agent“长期记忆”。

图：大模型智能体记忆方法。

规划

复杂的任务通常涉及许多步骤，规划(planning)作为一种结构化的思考过程，即组织思维、设定目标，并形成应对策略。
在AI Agent 的架构中，任务分解规划的过程是基于大模型的能力来实现的。大模型具备思维链（Chain of Thoughts， CoT）能力，通过提示模型“逐步思考”，利用更多的计算时间来将困难任务分解为更小，更简单的步骤，降低每个子任务的规模。
Agent可以对过去的行为进行自我批判和反思，从错误中吸取经验，并为接下来的行动进行分析、总结，确保其与环境更好地保持一致，从而适应环境、更有效地执行任务并成功达成目标。

图：Agent的反思框架

工具

工具是基础模型与外部系统进行实时、上下文感知的桥梁，目前主要有Functions、Extensions、Data Stores、Plugins等方式。
Extensions：一种以标准化方式连接API与Agent的组件，使Agent能够调用外部API，而不用管这些API背后的实现方式。
Functions：模型可以设置一组已知的函数，根据规范决定何时使用哪个函数，以及函数需要哪些参数。
Data Stores：向Agent提供增量数据，将传入的文档转换为一组向量数据库嵌入(embedding)，为Agent所用来提取信息，典型的例子是检索增强生成(RAG)。

三、AI Agent发展阶段

L1级—采用基于规则的AI；
L2级—转而使用基于互动学习(IL)/强化学习(RL)的AI，并增添推理和决策能力；
L3级—改用基于LLM的 AI替换互动学习/强化学习的方式，并增加记忆(Memory)与自我反思(reflection)，达到专家级别性能；
L4级—在L3的基础上，加强自我学习和泛化的能力，在特定任务上的表现超过人类；
L5级—在L4的基础上，增加了个性（情感+性格）和协作行为 (MultiAgent)，性能表现全面超越人类。

图：Agent等级分类

资料来源：Yu Huang, Roboraction.AI《Levels of AI Agents: from Rules to Large Language Models》

四、AI Agent的工作原理

AI Agent的响应质量依赖模型的推理能力和执行任务的能力，包括选择正确工具的能力，以及工具自身的好坏。

AI Agent的工作可以类比厨师做菜：

1）收集信息（输入）：顾客点的菜，后厨现有的食材等等；
2）推理（思考）：根据收集到的信息，判断可以做哪些菜；
3）做菜（行动）：包括切菜、加调料、烹炒等等。
在以上每个阶段，厨师(Agent)都根据需要进行调整，这个信息接收、规划、执行和调整的循环描述的就是一个Agent用来实现目标的特定认知架构。
Agent使用以上一种或多种推理技术（ReAct、Chain-of-Thought、Tree-of-Thoughts等），接受特定的用户请求确定下一个最佳行动。

图：Agent如何工作（以ReAct推理框架为例）

多智能体

为什么需要MultiAgent?——随着任务复杂度增加，单一智能体需要理解的语境和工具使用面临上下文窗口限制，导致性能下降；多智能体协作通过动态任务分解、专业化分工和协同工作克服这一挑战，这种协作可能产生智能涌现，即系统整体表现超越单个智能体能力之和。
多智能体系统协作模式：层级指挥模式下，指挥官智能体进行任务分解、整合各专家智能体返回的结果，专家智能体执行任务、返回结果。自由协作模式下，各个智能体分别交互，生成最终结果。多智能体框架包括 OpenAI Swarm、AutoGen、MetaGPT等。

图：MultiAgent的工作流程

图：MultiAgent的运作模式

资料来源：阿里云开发者公众号

MCP：AI工具统一接口，释放Agent空前潜力

当大语言模型与外部系统交互，一个企业面对不同的框架或系统，都需要参考其协议，去开发对应Tool，这是一个非常重复的工作。
MCP（Model Context Protocol，模型上下文协议）是Anthropic在2024年11月推出的一种开放协议，目的在于统一LLM和外部数据源、工具之间的通信协议，支持多种大模型，可类比AI应用程序的USB-C接口。
MCP组件：主机(MCP Host)是用户与AI互动的应用程序（如Claude Desktop、IDE）；服务器(MCP Server)位于工具端（如Slack、数据库），能给予AI访问特定资源的权限；客户端(MCP Server)负责把AI的指令发送给服务端。

图：MCP架构图

资料来源：腾讯云智慧传媒公众号

围绕MCP协议的生态系统正在逐步形成，有望重塑AI Agent格局，带来新一代自主、多模态、深度集成的AI体验。
MCP客户端：目前高质量的MCP客户端主要集中在编码领域，但随着MCP协议成熟普及，未来有望涌现出更多面向商业应用场景的MCP客户端。
MCP 市场和服务器托管解决方案： mcpt 、 Smithery和 OpenTools等平台，正在努力构建 MCP服务器的“应用商店”，让开发者能够更方便地发现、分享和贡献新的MCP服务器，有助于标准化高质量MCP服务器的访问，让AI Agent能够动态地选择和集成所需的工具。服务器生成工具（如Mintlify, Stainless）正在降低创建MCP兼容服务的门槛。

图：MCP核心模块

资料来源：a16z官网

五、如何构建Agent

我们通常说的智能体，往往是说使用了大模型或传统 AI的应用，可能很多并不是真正意义上的AI Agent智能体

基本思路

1.核心架构设计

AI Agent通常由以下模块构成：

感知模块（Perception）：接收环境信息（文本、图像等）。

规划模块（Planning）：将复杂任务分解为子目标，制定执行顺序并优化资源分配。关键技术包括：

思维链（Chain of Thought, CoT）：逐步推理任务步骤。
ReAct框架：融合推理（Reasoning）与行动（Action），动态调整策略。

记忆模块（Memory）：

短期记忆：存储当前任务上下文。
长期记忆：通过向量数据库存储历史数据，支持信息检索与自我反思。
工具模块（Tools）：调用外部API（如搜索引擎、计算器）扩展能力。
行动模块（Action）：执行决策（如代码生成、自动化操作）。

2.构建流程

构建AI Agent需遵循结构化流程：

步骤1：明确目标
定义Agent的具体任务（如生产调度、客服应答），并设定性能指标（准确率、响应时间）。

步骤2：任务规划与分解
将大任务拆解为可执行的子步骤。例如“洗稿大师”Agent的流程：输入文案→提取关键词→搜索文章→AI学习→生成文稿→配图→推送。

步骤3：组件选型与集成

模型选择：LLM作为大脑（如DeepSeek、qwen、豆包、GPT、claude）。
工具集成：接入API扩展功能。
记忆系统：配置向量数据库（如Faiss）。

步骤4：工作流驱动实现
使用平台（如Coze、LangChain）搭建工作流，通过Chain（任务链）、Router（路由决策）、Tool（工具调用）实现逻辑闭环。

步骤5：测试与优化
验证功能可用性，通过反思（Self-Reflection）优化决策质量。

六、主流开发平台与工具

低代码平台：

Coze/Dify/FastGPT/MaxKB：简单配置、拖拽式工作流搭建，适合非技术用户
阿里百炼、字节 HiAgent、腾讯大模型应用开发平台
企业级 Agent 平台：澜码Agent 平台、汉得AI 中台、埃豆 AI 中台

开发工具链：

LLM 应用基础开发框架（LangChain/LlamaIndex：框架支持ReAct Agent、RAG（检索增强生成）等高级模式。
Agent 开放框架：阿里云 AgentScope、字节Eino
企业级平台AI 平台（如阿里百炼、各大原厂商的机器学习平台）提供从算法、模型、AI应用构建、部署运行的全流程管理。

七、Agent应用构建流程具体示例

一、工作流程详解

1. 规划阶段

总结任务目标：明确 Agent 的核心功能（如智能问答、报告生成、流程自动化）。示例：构建“外文精读专家” Agent，需实现结构化解析外文内容并输出摘要 。

任务分解与逻辑设计：

将任务拆分为子任务（如文本解析、关键信息提取、总结生成）。
确定子任务依赖关系（如先解析后提取）。
设计执行方法：选择调用插件、知识库或大模型节点。

2. 实施阶段

搭建工作流框架：

在 Coze 平台创建 Agent，选择单 Agent（简单任务）或多 Agent（复杂任务，如同时处理 Java/Python 问题）。
拖拽节点构建工作流：以 Start 开始，连接 LLM 节点、工具节点（插件/API），以 End 结束。示例：智能问答流程：用户输入 → LLM 生成初步回答 → 调用知识库插件验证 → 输出最终答案 。

配置节点细节：

LLM 节点：选择模型（如云雀、GPT-4）并编写提示词。
工具节点：配置插件（如网页爬取、数据库查询）或 API 调用。
知识库：上传文档增强专业领域知识。
单点测试：验证每个子任务节点的输出是否符合预期。

3. 完善阶段

全流程测试评估：

输入多组测试数据，检查最终输出效果。
识别性能瓶颈（如响应延迟、幻觉问题）。

迭代优化：

调整提示词、节点逻辑或依赖关系。
通过多次 LLM 自我审查降低幻觉（如串联多个 LLM 节点交叉验证）。

发布与部署：

发布到微信、飞书等平台，支持自动触发（如定时任务）。

二、典型案例说明

案例 1：结构化报告生成 Agent

目标：自动分析数据并生成结构化报告。
工作流设计：

输入原始数据 → 调用数据分析插件清洗数据。
LLM 节点提取关键指标 → 二次调用插件生成图表。
多 LLM 节点交叉验证结论 → 输出最终报告。

优化点：通过工具节点确保数据准确性，多 LLM 节点减少幻觉。

案例 2：飞书接入个人知识库 Agent

目标：连接飞书群，自动回答专业问题。

关键配置：

知识库：上传行业文档（如法律、医疗资料）。
触发机制：监听飞书群关键词（如“@Bot”），自动调用知识库检索。

效果：1 分钟内完成问答，支持多轮对话。

案例 3：多 Agent 协作处理复杂任务

场景：技术面试题库 Bot（涵盖 Java/Python）。

设计：

Java Agent：专精 Java 八股文解析。
Python Agent：处理 Python 相关问题。
路由机制：根据用户问题自动分配至对应 Agent。
优势：细分场景提升回答准确性，降低单 Agent 负载。

案例 4：自动化工作流（HR 领域）

功能：简历筛选 → 面试安排 → 结果通知。

实现：

调用 OCR 插件解析简历 → 知识库匹配岗位要求。
自动发送面试日历邀请 → 完成后通过微信/邮件通知。

成效：减少 HR 80% 手动操作，全流程耗时从小时级降至分钟级。

基于coze的操作流程

搭建一个 AI 助手智能体 https://www.coze.cn/open/docs/guides/agent_quick_start
快速搭建一个 AI 应用 https://www.coze.cn/open/docs/guides/app_quickstart1

八、Agent的几种工作模式

1.构建模块：增强型LLM

2.工作流：提示词链（Prompt Chain）

3.工作流：路由（Router）

4.工作流：并行化（Parallelization）

5.工作流：协调者-工作者（Orchestrator-workers）

6.工作流：评估器-优化器（Evaluator-optimizer）

7.智能体

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】