一、AI Agent,2024上半年最火的崽!
AI Agent(人工智能代理)这玩意儿,上半年简直火到没朋友!笔者最近也紧跟潮流,恶补了一番相关知识,还用智能体开发平台捣鼓出几个有意思的Agent。今天就来跟大家唠唠,我对AI Agent的“浅见”。
二、 AI Agent到底是个啥?
AI Agent,全称人工智能体,说白了,就是个能感知周围环境、自己琢磨、做决定、还能干活儿的智能玩意儿。简单粗暴点理解,它就是一个基于大语言模型(LLM),能独立思考、会用工具、还能一步步完成你给的任务的计算机程序。
这时候你可能会问了,AI Agent和LLM、RAG这些概念,到底啥关系?别急,咱们一个个来捋。
1、 LLM:我是AI Agent的“最强大脑”
LLM(大语言模型)这家伙,可是个学霸!它基于海量文本数据训练,能写文章、能读懂你说话的意思,还能处理各种文字工作,比如写个摘要、回答问题、搞个翻译啥的。简单说,LLM就是负责语言逻辑推理的,像什么Chat GPT、文心一言、通义千问,都是LLM的代表。

不过,LLM也有“知识盲区”,因为它学的东西都是提前训练好的,时效性不够强。而且,它学的知识一般都是公开的、标准化的,难免有局限性。
为了解决LLM知识有限的问题,就需要把外部知识“喂”给它,让它学懂了再“吐”出来,这时候就要用到RAG技术了。
2、 RAG:我是LLM的“知识外挂”
RAG(检索增强生成)技术,就像是给LLM开了个“知识外挂”。它结合了外部信息检索和LLM的生成能力,能处理更复杂的信息查询和生成任务。在AI时代,RAG 通过加入外部数据(比如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,让它查到的信息更准、生成的内容更好。举个栗子:文心一言的插件服务,就能把实时或者私有的知识“喂”给LLM。

总结一下,RAG是一种技术,作用于LLM,目的是让LLM输出的结果更准确。
3、 AI Agent、LLM、RAG,我们仨的关系!
如果把AI Agent比作一个“人精”,那LLM就是它的“大脑”。
AI Agent 会利用 LLM 的推理能力,把一个大问题拆成一堆小问题,然后安排好这些小问题之间的先后顺序,先解决哪个,再解决哪个。接着,它会按顺序,调用 LLM 、 RAG 或者其他工具,来逐个解决这些小问题,直到把最初的大问题搞定。

三、 AI Agent的“身体构造”大揭秘!
前面说了,LLM是AI Agent的“大脑”,但光有“大脑”可干不了复杂的事儿。作为一个“智能体”,还得有“神经感官系统”和“四肢”的配合,这就引出了AI Agent的基础架构。

▲由LLM驱动的智能体系统
如上图,Agent主要由4个关键部分组成,分别是:规划(Planning)、记忆(Memory)、工具集(Tools)、行动(Action)
1、 规划(Planning):我是Agent的“行动指南”
“规划”就像是Agent的“思维模式”。如果用人来类比,当我们接到一个任务时,我们的思维模式可能是这样的:
- 先想想怎么完成这个任务。
- 然后把任务拆成几个小任务,一步步来。
- 再看看手头有什么工具能帮我们更快更好地完成任务。
- 在执行任务的时候,我们会边做边反思,不断调整策略。
- 执行过程中,我们会考虑任务啥时候算完成。
所以,我们可以通过 LLM 提示工程(Prompt),给Agent赋予这样的思维模式。比如:在写Prompt的时候用上ReAct、CoT这些推理模式,引导LLM把复杂的任务拆解成多个步骤,一步步思考和解决,这样输出的结果就更靠谱了。
2、 记忆(Memory):我是Agent的“知识库”
记忆是啥?当我们思考这个问题的时候,其实我们的大脑已经在用记忆了。记忆就是大脑存储、保留和回忆信息的能力。
模仿人类的记忆机制,Agent也分了两种记忆:
-
短期记忆
:就像我们平时聊天,单次对话的上下文会被暂时记住,方便我们进行多轮对话,任务结束后这些记忆就会被清空。
-
长期记忆
:那些需要长时间记住的信息,比如用户的个人信息、业务信息,通常会用向量数据库来存储和快速检索。
3、 工具集(Tools):我是Agent的“百宝箱”
Agent能感知环境、做决策、执行任务,都离不开“神经感官系统”的帮忙,“工具集”就扮演了这个角色。Agent通过工具从周围环境获取信息(感知),经过LLM处理后再用工具完成任务(执行)。
所以,我们需要给Agent配备各种工具,还要教它怎么用这些工具。比如:
- 通过调用软件系统不同应用模块的API,获取指定的业务信息,以及执行业务操作的权限。
- 通过调用外部的插件工具,来获取LLM原本不具备的能力,比如:文心的Chat files插件能解析文档;扣子的ByteArtist插件能文生图等等。
这里就用到了前面提到的RAG技术。

▲扣子平台的插件商城
4、 行动(Action):我是Agent的“执行力”
Agent根据规划和记忆来执行具体行动,这可能包括与外部世界互动,或者通过调用工具来完成一个动作,说白了,就是一个输入(Input)任务的最终输出(Output)。
比如:实体AI机器人完成一个“鼓掌”的动作;又或者在软件系统里,AI助手帮你创建一个待办任务。

▲Cyberdog2完成“鼓掌”任务
四、 AI Agent实战案例:订餐小助手
为了让大家更好地理解AI Agent,这里举个生活中的小例子:假设你需要跟朋友在附近吃饭,想让AI Agent帮你订餐厅。
Agent会先把你提出的任务拆解成几个步骤:
第一步:定位(我在哪儿?)
-
推理1
:光凭现有信息没法回答这个问题,得知道你现在在哪儿,以及附近有哪些餐厅。
-
行动1
:用地图工具(Tools)获取你当前的位置信息。
-
结果1
:得到附近的餐厅列表。
第二步:选餐厅(哪家最好吃?)
-
推理2
:要确定订哪家餐厅,得知道你喜欢吃啥,以及其他细节(比如:吃饭时间、几个人一起吃)。
-
行动2
:从记忆(Memory)里翻出你的饮食偏好、吃饭人数、时间等信息。
-
结果2
:确定最适合你的餐厅。
第三步:订座(搞定!)
-
推理3
:根据结果2,看看现在手头的工具能不能完成订座。
-
行动3
:用相关的插件工具,进行餐厅预订(Action)。
-
结果3
:任务完成!
五、 Agent在To B产品中的应用:让工作更“丝滑”
了解了AI Agent的基本原理后,我们可以把这套框架思想应用到To B产品的AI化设计中。比如:用AI Agent来搭建报表、创建任务、生成工作报告等等。这里就拿**【生成工作报告】**为例,分享一下我的思路:
在CRM系统里,写工作报告(周报、月报)是个周期性的高频工作。这个工作可以分成几个阶段:
1、 手动阶段:吭哧吭哧自己干
刚开始,员工写工作报告得做好几步:
- 第一步:通过各种方式整理汇报周期内,联系了哪些客户;商机都推进到什么阶段;哪些客户成交了,成交了多少钱等等。
- 第二步:把这些零零散散的信息,重新整理成汇报格式(比如:内容+当前进度+预期等)。
- 第三步:选择汇报人,提交报告。
这个过程,员工大部分时间都花在了收集和整理信息上,累觉不爱。

▲手动阶段写工作周报
2、 Copilot阶段:LLM来帮忙
有了LLM,员工写工作报告的时候,可以省去整理信息、撰写报告的步骤。
这时候,只需要把报告要求告诉LLM,让LLM根据零散的数据信息进行加工整理,最后自动写好工作报告。如果提问中没有汇报人等信息,LLM会通过多轮对话的方式来问你。
3、 Agent阶段:智能体,全靠你了!
到了Agent阶段,我们可以基于智能体的基础框架,打造一个【工作报告智能体】:
-
规划(Planning)
:写Prompt的时候,让LLM把“生成工作报告”这个任务拆解成获取基础数据—整理输出报告—选择汇报人—执行提交这四步。
-
工具(Tools)
:因为LLM没法获取私有信息,所以通过RAG技术,接入数据中心API来获取客户联系、流转、成交等详细数据;以及接入工作报告应用API来获取“填写”和“提交”的权限。
-
记忆(Memory)
:把员工以前的汇报内容拿来分析,提炼出汇报的文案风格、内容格式、汇报周期、汇报人等信息,作为长时记忆存起来,写报告的时候就能直接用。
-
行动(Action)
:基于工作报告应用开放的执行权限,等LLM写好工作报告后,自动执行提交操作,搞定!

▲工作报告智能体框架
这样一来,员工只需要给Agent下达写工作报告的任务(可以设置定时任务或者手动触发),Agent就会自动完成数据采集、报告撰写、选择汇报人、报告提交这些操作。

▲工作报告智能体demo
六、 总结:AI Agent,To B产品的未来!
如果把“To B软件的AI化”比作汽车自动驾驶技术的发展,那么2023年LLM的推出,相当于To B软件应用的自动化程度从L1升级到了L2;而AI Agent的到来,让自动化程度更上一层楼,从L2升级到了L4。

▲人类与AI协同的三种模式
随着AI Agent自主性的不断增强,它会逐渐替代越来越多的重复性工作。但从To B软件的角度来看,AI最终要解决的核心问题还是「降本增效」。
所以,作为产品经理,在提升自己AI能力的同时,也要不断提高自己对产品所在行业的业务理解能力。毕竟,如果找不到核心应用场景,再先进的工具也只是摆设。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

1459

被折叠的 条评论
为什么被折叠?



