一文纵览AI Agent全解析:定义、构成要素与构建指南

部署运行你感兴趣的模型镜像

在当今数字化时代,AI技术正以前所未有的速度改变着我们的生活和工作方式,其中AI Agent(智能体)作为一项前沿应用,受到了广泛关注。从通用型AI助手如Manus,到专注于特定领域的垂直Agent,它们都在各自领域发挥着重要作用,展现出强大的功能和潜力。本文将为您详细介绍AI Agent的定义、构成、发展阶段以及构建方法等内容,帮助您更好地了解这一领域。需要说明的是,本文中不少内容来源于网络整理与整合,旨在为您提供一个全面且系统的视角,以更好地把握AI Agent的核心要点和发展趋势。

一、Agent介绍

1、 有哪些Agent

img

2、通用 Agent

Manus: https://manus.im/

💡Manus 是一款通用型 AI 助手,能将想法转化为行动:不止于思考,更注重成果。Manus 擅长处理工作与生活中的各类任务,在你安心休息的同时,一切都能妥善完成。

  • 2025年3月6日,中国创业团队Monica发布一款名为Manus的产品,在评估通用人工智能助手解决现实世界问题的GAIA基准测试中, Manus取得了最先进(SOTA, State-of-the-Art)的成绩,性能超越OpenAI Deep Research。
  • 作为全球首款真正意义上的通用AI Agent,Manus能够独立思考、规划并执行复杂任务,直接交付完整成果。其名称来源于拉丁语 "Mens et Manus”,意为手脑并用,将知识用手执行。

基准测试:GAIA 是评估通用人工智能助手解决实际问题能力的基准。 Manus 在所有三个难度级别上取得了新的最新技术 (SOTA) 绩效。

img

官网开放案例清单:

img

img

img

运行示例:https://manus.im/share/j7BUZNaC7vxEpqBU5GYQOR?replay=1

img

img

img

天工: https://www.tiangong.cn/

img

img

img

运行示例:苹果 2025 年新品发布计划 - 表格模式 、古人性格与MBTI分析 - PPT 模式

垂直Agent

  • Cursor ——AI 编程
  • Lovart——设计Agent
  • 其他垂直场景 Agent

img

二、智能体定义

AI Agent是一种能够自主感知环境(如数据、用户输入、物理状态)、分析信息、制定决策并执行动作以实现特定目标的智能应用。其核心在于模仿人类或生物的智能行为,在复杂环境中完成任务甚至规划长期目标。

1、智能体与工作流

智能体(Agent) 则能够 自主 为用户执行同样的流程。智能体是在高度自主的前提下,代表用户完成任务的系统。

工作流程(workflow) 指为实现用户目标必须依次执行的一系列步骤,例如解决客服问题、预订餐厅、提交代码变更,或生成数据报告。

非智能体场景:将 LLM 集成到应用中却不让它控制流程执行(如简单聊天机器人、单轮问答 LLM、情绪分类器等)——这些都不属于智能体。

表:将 AI 和人类协作的程度类比自动驾驶的不同阶段

img

数据来源:甲子光年

2、大模型与 Agent 的关系与区别
  • Agent VS LLM:模型的知识仅限于其训练数据,AI Agent通过工具连接外部系统,在模型自带的知识之外,实时、动态扩展知识。
  • 模型缺乏原生逻辑层,需借助提示词工程或使用推理框架(CoT、ReAct等)来形成复杂提示,指导模型进行预测,而AI Agent自 带原生认知架构,内置CoT、ReAct等推理框架或LangChain等编排框架。

表:AI Agent与AI模型的区别

img

3、智能体的构成

AI Agent的基础组件包括:模型(model)、工具(tool)、记忆(memory)、规划(planning)。

  • 模型(model):Agent中用来做核心决策的大脑,可以是一个或多个任何大小的模型。
  • 规划(planning):将大型任务分解成较小的、可管理的子目标,从而高效处理复杂任务。
  • 工具(tool):基础模型在文本和图像生成方面非常强大,但无法与外部世界联动,有了工具,Agent便能够与外部数据和服务互动。
  • 记忆(memory):用于获取、存储、保留和稍后检索信息的过程,帮助Agent积累经验、自我进化,以更一致、合理有效的方式行动。

图:LLM驱动的AI Agent系统

img

记忆

  • 结构上,memory模块通常包含短期记忆和长期记忆,短期记忆暂存最近的感知,长期记忆存储重要信息供随时检索。
  • 格式上,可以用自然语言表达,或编码为向量嵌入提高检索效率;可以利用数据库存储,或组织为结构化列表表示内存语义。
  • 操作上,主要通过记忆读取、写入和反射三种机制与环境交互;读取提取相关信息指导行动,写入存储重要信息,反射总结见解提 升抽象水平。

img

  • 向量数据库利用人工智能中的 Embedding 方法,将图像、音视频等非结构化数据抽象、转换为多维向量,由此可以结构化地在向量数据库中进行管理,从而实现快速、高效的数据存储和检索过程,赋予了 Agent“长期记忆”。

img

img

图:大模型智能体记忆方法。

img

规划

  • 复杂的任务通常涉及许多步骤,规划(planning)作为一种结构化的思考过程,即组织思维、设定目标,并形成应对策略。
  • 在AI Agent 的架构中,任务分解规划的过程是基于大模型的能力来实现的。大模型具备思维链(Chain of Thoughts, CoT)能力,通过提示模型“逐步思考”,利用更多的计算时间来将困难任务分解为更小,更简单的步骤,降低每个子任务的规模。
  • Agent可以对过去的行为进行自我批判和反思,从错误中吸取经验,并为接下来的行动进行分析、总结,确保其与环境更好地保持 一致,从而适应环境、更有效地执行任务并成功达成目标。

图:Agent的反思框架

img

工具

  • 工具是基础模型与外部系统进行实时、上下文感知的桥梁,目前主要有Functions、Extensions、Data Stores、Plugins等方式。
  • Extensions:一种以标准化方式连接API与Agent的组件,使Agent能够调用外部API,而不用管这些API背后的实现方式。
  • Functions:模型可以设置一组已知的函数,根据规范决定何时使用哪个函数,以及函数需要哪些参数。
  • Data Stores:向Agent提供增量数据,将传入的文档转换为一组向量数据库嵌入(embedding),为Agent所用来提取信息,典型的 例子是检索增强生成(RAG)。

三、AI Agent发展阶段

  • L1级—采用基于规则的AI;
  • L2级—转而使用基于互动学习(IL)/强化学习(RL)的AI,并增添推理和决策能力;
  • L3级—改用基于LLM的 AI替换互动学习/强化学习的方式,并增加记忆(Memory)与自我反思(reflection),达到专家级别性能;
  • L4级—在L3的基础上,加强 自我学习和泛化的能力,在特定任务上的表现超过人类;
  • L5级—在L4的基础上,增加了个性(情感+性格)和协作行为 (MultiAgent),性能表现全面超越人类。

图:Agent等级分类

img

资料来源:Yu Huang, Roboraction.AI《Levels of AI Agents: from Rules to Large Language Models》

四、AI Agent的工作原理

  • AI Agent的响应质量依赖模型的推理能力和执行任务的能力,包括选择正确工具的能力,以及工具自身的好坏。

AI Agent的工作可以类比厨师做菜:

  • 1)收集信息(输入):顾客点的菜,后厨现有的食材等等;

  • 2)推理(思考):根据收集到的信息, 判断可以做哪些菜;

  • 3)做菜(行动):包括切菜、加调料、烹炒等等。

  • 在以上每个阶段,厨师(Agent)都根据需要进行调整,这个信息 接收、规划、执行和调整的循环描述的就是一个Agent用来实现目标的特定认知架构。

  • Agent使用以上一种或多种推理技术(ReAct、Chain-of-Thought、Tree-of-Thoughts等),接受特定的用户请求确定下一个最佳行动。

图:Agent如何工作(以ReAct推理框架为例)

img

多智能体

  • 为什么需要MultiAgent?——随着任务复杂度增加,单一 智能体需要理解的语境和工具使用面临上下文窗口限制, 导致性能下降;多智能体协作通过动态任务分解、专业 化分工和协同工作克服这一挑战,这种协作可能产生智 能涌现,即系统整体表现超越单个智能体能力之和。
  • 多智能体系统协作模式:层级指挥模式下,指挥官智能 体进行任务分解、整合各专家智能体返回的结果,专家 智能体执行任务、返回结果。自由协作模式下,各个智 能体分别交互,生成最终结果。多智能体框架包括 OpenAI Swarm、AutoGen、MetaGPT等。

图:MultiAgent的工作流程

img

图:MultiAgent的运作模式

img

资料来源:阿里云开发者公众号

MCP:AI工具统一接口,释放Agent空前潜力

  • 当大语言模型与外部系统交互,一个企业面对不同的框架或系统,都需要参考其协议,去开发对应Tool,这是一个非常重复的工作。
  • MCP(Model Context Protocol,模型上下文协议)是Anthropic在2024年11月推出的一种开放协议,目的在于统一LLM和外部数据 源、工具之间的通信协议,支持多种大模型,可类比AI应用程序的USB-C接口。
  • MCP组件:主机(MCP Host)是用户与AI互动的应用程序(如Claude Desktop、IDE);服务器(MCP Server)位于工具端(如Slack、 数据库),能给予AI访问特定资源的权限;客户端(MCP Server)负责把AI的指令发送给服务端。

图:MCP架构图

img

img

资料来源:腾讯云智慧传媒公众号

  • 围绕MCP协议的生态系统正在逐步形成,有望重 塑AI Agent格局,带来新一代自主、多模态、深 度集成的AI体验。
  • MCP客户端:目前高质量的MCP客户端主要集中 在编码领域,但随着MCP协议成熟普及,未来有 望涌现出更多面向商业应用场景的MCP客户端。
  • MCP 市场和服务器托管解决方案: mcpt 、 Smithery和 OpenTools等平台,正在努力构建 MCP服务器的“应用商店”,让开发者能够更方 便地发现、分享和贡献新的MCP服务器,有助于 标准化高质量MCP服务器的访问,让AI Agent能 够动态地选择和集成所需的工具。服务器生成工 具(如Mintlify, Stainless)正在降低创建MCP兼 容服务的门槛。

图:MCP核心模块

img

资料来源:a16z官网

img

img

五、如何构建Agent

我们通常说的智能体,往往是说使用了大模型或传统 AI的应用,可能很多并不是真正意义上的AI Agent智能体

img

基本思路

1.核心架构设计

AI Agent通常由以下模块构成:

感知模块(Perception) :接收环境信息(文本、图像等)。

规划模块(Planning) :将复杂任务分解为子目标,制定执行顺序并优化资源分配。关键技术包括:

  • 思维链(Chain of Thought, CoT) :逐步推理任务步骤。
  • ReAct框架:融合推理(Reasoning)与行动(Action),动态调整策略。

记忆模块(Memory):

  • 短期记忆:存储当前任务上下文。

  • 长期记忆:通过向量数据库存储历史数据,支持信息检索与自我反思。

  • 工具模块(Tools) :调用外部API(如搜索引擎、计算器)扩展能力。

  • 行动模块(Action) :执行决策(如代码生成、自动化操作)。

2.构建流程

构建AI Agent需遵循结构化流程:

步骤1:明确目标
定义Agent的具体任务(如生产调度、客服应答),并设定性能指标(准确率、响应时间)。

步骤2:任务规划与分解
将大任务拆解为可执行的子步骤。例如“洗稿大师”Agent的流程:输入文案→提取关键词→搜索文章→AI学习→生成文稿→配图→推送。

步骤3:组件选型与集成

  • 模型选择:LLM作为大脑(如DeepSeek、qwen、豆包、GPT、claude)。
  • 工具集成:接入API扩展功能。
  • 记忆系统:配置向量数据库(如Faiss)。

步骤4:工作流驱动实现
使用平台(如Coze、LangChain)搭建工作流,通过Chain(任务链)、Router(路由决策)、Tool(工具调用)实现逻辑闭环。

步骤5:测试与优化
验证功能可用性,通过反思(Self-Reflection)优化决策质量。

六、主流开发平台与工具

低代码平台:

  • Coze/Dify/FastGPT/MaxKB: 简单配置、拖拽式工作流搭建,适合非技术用户
  • 阿里百炼、字节 HiAgent、腾讯大模型应用开发平台
  • 企业级 Agent 平台:澜码Agent 平台、汉得AI 中台、埃豆 AI 中台

开发工具链:

  • LLM 应用基础开发框架(LangChain/LlamaIndex:框架支持ReAct Agent、RAG(检索增强生成)等高级模式。
  • Agent 开放框架:阿里云 AgentScope、字节Eino
  • 企业级平台AI 平台(如阿里百炼、各大原厂商的机器学习平台)提供从算法、模型、AI应用构建、部署运行的全流程管理。

七、Agent应用构建流程具体示例

一、工作流程详解
1. 规划阶段
  • 总结任务目标:明确 Agent 的核心功能(如智能问答、报告生成、流程自动化)。示例:构建“外文精读专家” Agent,需实现结构化解析外文内容并输出摘要

任务分解与逻辑设计:

  • 将任务拆分为子任务(如文本解析、关键信息提取、总结生成)。
  • 确定子任务依赖关系(如先解析后提取)。
  • 设计执行方法:选择调用插件、知识库或大模型节点。
2. 实施阶段

搭建工作流框架:

  • 在 Coze 平台创建 Agent,选择单 Agent(简单任务)或多 Agent(复杂任务,如同时处理 Java/Python 问题)。
  • 拖拽节点构建工作流:以 Start 开始,连接 LLM 节点、工具节点(插件/API),以 End 结束。示例:智能问答流程:用户输入 → LLM 生成初步回答 → 调用知识库插件验证 → 输出最终答案

配置节点细节:

  • LLM 节点:选择模型(如云雀、GPT-4)并编写提示词。

  • 工具节点:配置插件(如网页爬取、数据库查询)或 API 调用。

  • 知识库:上传文档增强专业领域知识。

  • 单点测试:验证每个子任务节点的输出是否符合预期。

3. 完善阶段

全流程测试评估:

  • 输入多组测试数据,检查最终输出效果。
  • 识别性能瓶颈(如响应延迟、幻觉问题)。

迭代优化:

  • 调整提示词、节点逻辑或依赖关系。
  • 通过多次 LLM 自我审查降低幻觉(如串联多个 LLM 节点交叉验证)。

发布与部署:

  • 发布到微信、飞书等平台,支持自动触发(如定时任务)。
二、典型案例说明
案例 1:结构化报告生成 Agent
  • 目标:自动分析数据并生成结构化报告。

  • 工作流设计:

  1. 输入原始数据 → 调用数据分析插件清洗数据。
  2. LLM 节点提取关键指标 → 二次调用插件生成图表。
  3. 多 LLM 节点交叉验证结论 → 输出最终报告。
  • 优化点:通过工具节点确保数据准确性,多 LLM 节点减少幻觉。
案例 2:飞书接入个人知识库 Agent

目标:连接飞书群,自动回答专业问题。

关键配置:

  • 知识库:上传行业文档(如法律、医疗资料)。
  • 触发机制:监听飞书群关键词(如“@Bot”),自动调用知识库检索。

效果:1 分钟内完成问答,支持多轮对话。

案例 3:多 Agent 协作处理复杂任务
  • 场景:技术面试题库 Bot(涵盖 Java/Python)。

设计:

  • Java Agent:专精 Java 八股文解析。

  • Python Agent:处理 Python 相关问题。

  • 路由机制:根据用户问题自动分配至对应 Agent。

  • 优势:细分场景提升回答准确性,降低单 Agent 负载。

案例 4:自动化工作流(HR 领域)
  • 功能:简历筛选 → 面试安排 → 结果通知。

实现:

  • 调用 OCR 插件解析简历 → 知识库匹配岗位要求。
  • 自动发送面试日历邀请 → 完成后通过微信/邮件通知。

成效:减少 HR 80% 手动操作,全流程耗时从小时级降至分钟级。

基于coze的操作流程

  • 搭建一个 AI 助手智能体 https://www.coze.cn/open/docs/guides/agent_quick_start
  • 快速搭建一个 AI 应用 https://www.coze.cn/open/docs/guides/app_quickstart1

八、Agent的几种工作模式

1.构建模块:增强型LLM

img

2.工作流:提示词链(Prompt Chain)

img

3.工作流:路由(Router)

img

4.工作流:并行化(Parallelization)

img

5.工作流:协调者-工作者(Orchestrator-workers)

img

6.工作流:评估器-优化器(Evaluator-optimizer)

img

7.智能体

img

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

您可能感兴趣的与本文相关的镜像

LobeChat

LobeChat

AI应用

LobeChat 是一个开源、高性能的聊天机器人框架。支持语音合成、多模态和可扩展插件系统。支持一键式免费部署私人ChatGPT/LLM 网络应用程序。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值