目前,AI Agents 和 Agentic AI 是近年来备受瞩目的新兴概念。随着生成式人工智能模型(如 ChatGPT)的兴起,AI Agents 和 Agentic AI 的研究和应用迅速扩展。本文将详细探讨 AI Agents 和 Agentic AI 的定义、特性、架构、应用领域以及它们之间的区别,并提供一个专业的对比分析。
AI Agents 的定义与特性
定义
AI Agents(人工智能代理)是自主软件实体,旨在特定的数字环境中执行目标导向的任务。这些代理能够感知结构化或非结构化的输入,进行上下文推理,并发起行动以实现特定目标。
核心特性
- 自主性 :AI Agents 在部署后能够独立运行,最小化或无需人工干预。这使得它们能够进行大规模的无人值守操作,如客户服务机器人或调度助手。
- 任务特定性 :AI Agents 专为狭窄且明确定义的任务而设计,如电子邮件过滤、数据库查询或日历协调。这种任务特定性允许在固定功能领域内实现高性能优化。
- 反应性与适应性 :AI Agents 能够对环境变化做出响应,包括用户命令、软件状态或 API 响应。一些系统通过反馈循环、基本学习启发式方法或更新的上下文缓冲区集成基本学习机制,以随时间改进行为。
基础模型
AI Agents 的发展在很大程度上得益于大型语言模型(LLMs)和大型图像模型(LIMs)的开发和部署。这些模型作为现代代理系统的核心推理和感知引擎,使 AI 代理能够智能地与环境互动,理解多模态输入,并执行超出硬编码自动化的复杂推理任务。
例如,GPT-4 和 PaLM 等 LLMs 在通过指令微调和从人类反馈中强化学习(RLHF)后,能够进行自然语言交互、规划和有限的决策制定。而 CLIP 和 BLIP2 等 LIMs 则扩展了代理的感知能力,使其能够处理图像分类、目标检测和视觉 - 语言定位等视觉领域任务。
生成式 AI 的前奏
生成式 AI 作为 AI Agents 的前驱,主要基于预训练的 LLMs 和 LIMs,通过输入提示生成新颖内容,如文本、图像、音频或代码。然而,生成式模型本质上表现出反应性行为,它们仅在用户明确提示时产生输出,缺乏内部状态、持续记忆或目标跟踪机制。
Agentic AI 的定义与特性
定义
Agentic AI 代表了一种范式转变,其特点是多代理协作、动态任务分解、持续记忆和协调自主性。与传统的 AI Agents 不同,Agentic AI 系统由多个专业代理组成,这些代理在更广泛的工作流程中协调、交流和动态分配子任务。
关键特性
- 多代理协作 :Agentic AI 系统包含多个专业代理,每个代理负责更广泛目标的一个特定子组件。这些代理通过集中式协调器或去中心化协议进行交互。
- 动态任务分解 :用户指定的目标被规划代理自动解析并分解为更小、更易管理的任务,然后这些任务被分发到代理网络中。
- 持续记忆 :Agentic AI 系统包含记忆子系统,以在任务周期或代理会话之间持续保持知识。这包括情景记忆(任务特定历史)、语义记忆(长期事实或结构化数据)和基于向量的记忆(用于检索增强生成的 RAG)。
- 协调策略 :Agentic AI 系统引入了编排器 / 元代理,以协调从属代理的生命周期,管理依赖关系、分配角色并解决冲突。
AI Agents 与 Agentic AI 的区别
本质区别
AI Agents 通常被设计为单一实体系统,通过调用外部工具、应用顺序推理和集成实时信息来执行目标导向的任务。相比之下,Agentic AI 系统由多个专业代理组成,这些代理在更广泛的工作流程中进行协调、交流和动态分配子任务。
架构演变
Agentic AI 在 AI Agents 的基础上进化而来,通过引入专门代理、高级推理与规划、持续记忆架构和编排层等增强功能,支持更复杂的分布式智能。
AI Agents 的应用领域
客户支持自动化与内部企业搜索
AI 代理通过与 API 和组织知识库集成,回答用户查询、分流工单,并执行订单跟踪或退货启动等操作。
电子邮件过滤与优先级排序
在生产力工具中,AI 代理通过内容分类和优先级排序自动化电子邮件分流。
个性化内容推荐与基本数据分析和报告
AI 代理通过分析用户行为模式进行新闻、产品或媒体推荐,并支持通过自然语言数据查询和自动化报告生成的分析系统。
自主导航助手
与日历系统集成的 AI 代理自主管理会议协调、重新安排和冲突解决。
Agentic AI 的应用领域
多代理研究助手
Agentic AI 系统在学术和工业研究管道中分配专门角色,如检索器、摘要器、合成器和引文格式化器,以协同方式自动执行多阶段知识工作。
智能机器人协调
在机器人和自动化领域,Agentic AI 支持多机器人系统的协作行为。每个机器人作为执行特定任务的代理,而协调器监督和适应工作流程。
协作医疗决策支持
在高风险临床环境中,Agentic AI 实现分布式医疗推理,将诊断、生命体征监测和治疗规划等任务分配给专门代理。
多代理游戏 AI 与适应性工作流自动化
在模拟环境和企业系统中,Agentic AI 促进去中心化任务执行和出现的协调。
挑战与解决方案
AI Agents 的挑战
- 因果理解的缺乏 :AI Agents 无法进行因果推理,限制了其在分布外条件下的可靠性。
- 继承自 LLMs 的限制 :AI Agents 继承了 LLMs 的幻觉问题、提示敏感性、浅层推理和计算成本等限制。
- 不完整的代理属性 :AI Agents 在自主性、主动性、反应性和社交能力方面存在不足。
- 有限的长期规划与恢复能力 :AI Agents 在复杂多阶段任务的长期规划方面表现不佳。
Agentic AI 的挑战
- 放大的因果挑战 :Agentic AI 系统中各代理的动作相互影响,缺乏因果推理能力会导致协调失败和错误传播。
- 通信与协调瓶颈 :实现高效通信和协调是 Agentic AI 的主要挑战,包括目标对齐、共享上下文和协议限制等问题。
- 出现的行为与可预测性 :Agentic AI 中可能出现意外行为,带来安全风险和可控性挑战。
- 可扩展性和调试复杂性 :随着代理数量和角色多样性的增加,维护系统可靠性和可解释性变得复杂。
潜在解决方案
- 检索增强生成(RAG) :通过将用户查询嵌入到向量数据库中检索语义相关文档,使 AI 代理的输出基于实时数据,减少幻觉问题。
- 工具增强推理(函数调用) :允许 AI 代理查询 API、运行本地脚本或访问结构化数据库,从而与现实世界系统互动。
- 代理循环:推理、行动、观察 :引入迭代循环,使代理能够在推理、行动和观察之间交替,提高上下文敏感性。
- 记忆架构(情景、语义、向量) :通过持久化信息跨任务,解决 AI Agents 的长期规划和会话连续性问题。
结论
本文提供了对 AI Agents 和 Agentic AI 的全面文献评估,包括基本概念、架构演变、应用领域和关键限制。AI Agents 作为模块化、任务特定的实体,具有有限的自主性和反应性,其操作范围基于 LLMs 和 LIMs 的集成。Agentic AI 则是 AI Agents 概念的扩展,强调通过多代理协调、上下文持久性和领域特定编排实现协作智能。未来的研究和发展应关注提高 AI Agents 的主动推理、工具集成、因果推理、持续学习和信任度,同时在 Agentic AI 中实现多代理扩展、统一编排、持续记忆、模拟规划、伦理治理和领域特定系统,以推动人工智能技术的进一步发展和应用。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。