什么是 AI 智能体?
下一件大事?Gartner 认为:AI 智能体(AI Agents)将是未来的关键技术。OpenAI、Nvidia 和 Microsoft 正在大力投入,甚至像 Salesforce 这样在 AI 领域一向低调的公司,也已悄然下注。
而毫无疑问,这项技术目前正迅猛崛起。
那么,这一趋势背后真正的是什么?理解智能体(Agents)的关键在于:自主性(Agency)。
不同于传统的生成式 AI 系统,智能体不仅仅是对用户输入做出回应。它们能够处理一个完整且复杂的问题——例如,一起保险理赔案件——从头到尾自动完成。这意味着它们可以理解理赔中的文本、图片与 PDF;从客户数据库中检索相关信息;将案例与保险条款进行比对;主动向客户提问并等待回应——哪怕这个过程需要几天;且不会遗忘上下文。
最重要的是:这些智能体可以自主完成所有操作,无需人类检查其处理过程是否正确。
咖啡机与咖啡师的比喻
与当前市面上的 AI 系统以及各类“协助型 Copilot”不同,AI 智能体实际上更像是一位真正的“员工”,而不是仅仅帮助员工完成部分工作的工具。它们展现出在流程自动化方面的巨大潜力。
想象一下 —— 一个能够完成复杂、多步骤任务的 AI,原本这些任务需要一个人类员工甚至是一个完整部门来完成:
•策划、设计、执行、评估并优化一场市场营销活动•在物流中定位遗失的货物,通过与承运商、客户和仓库沟通协调——若最终无法找回,还能向责任方提出索赔•每日检索商标数据库,判断是否有新注册商标与自己的商标存在冲突,并立即提出异议•收集 ESG 报告所需数据,包括询问员工、验证数据并最终撰写完整报告
目前,AI 模型可以协助处理某些环节,例如生成营销内容、分析电子邮件等,但它们尚不具备执行完整业务流程的能力。而 AI 智能体(AI Agent)可以做到这一点 —— 它不仅“协助”,还可以“主导执行”。
虽然传统的 AI 模型就像一台顶级的意式咖啡机,但基于智能体的 AI,更像是一位咖啡师(Barista)。咖啡机能煮出好咖啡;而咖啡师不仅会煮咖啡,还能:欢迎客人,记下订单,端上咖啡 ,收银结账 ,清洗杯具 ,晚上关店。即便是世界上最好的咖啡机,也无法独立经营一家咖啡馆,但咖啡师可以。
为什么 AI 智能体和咖啡师能做到这些?因为他们擅长掌握复杂工作的各个子流程,并能够自主决定下一步要做什么。
他们能与人交流,比如:
•向顾客提问,以获取更多信息(需要牛奶还是燕麦奶?)•判断求助对象,在遇到问题时知道该找谁(咖啡豆没了 => 找老板;咖啡机罢工 => 联系售后服务)
这正是 AI 智能体的优势,它不仅能执行任务,还能理解场景、做出判断、沟通协调、灵活应变 —— 像一个真正的“数字员工”。
如何动手构建一个 AI 智能体?
我们将围绕上方图示中的保险业务流程,设计一个智能体系统。该智能体应能从理赔申请的发起一直处理到赔付完成。
⚠️ 在这里我们主要讨论业务架构和流程设计。由于涉及编码的部分非常庞大,本文暂不深入编程实现细节。
1. 分类 & 将任务分配到处理路径中
我们的工作流从客户向保险公司发送一条理赔消息开始,这通常是有关房屋保险的申请内容。
那么,智能体该怎么做?它首先要分析消息内容,判断客户的诉求是什么。
基于这一分类判断,系统会启动相应的处理路径(processing lane)。这一步往往不仅仅是函数调用[1],而是涉及到对整个流程的基本决策(例如属于哪一类理赔),后续触发多个独立的处理步骤。这就是智能体在流程第一步的职责,理解需求 → 分类判断 → 进入具体处理流。
2. 数据提取
下一步是数据提取。智能体的主要任务之一,就是将非结构化数据转化为结构化数据,以便流程更加系统化、安全且可控。
分类是将文本归入预定义的某一类;而提取,则是从文本中读取并解析具体的数据内容。然而,语言模型并不会直接“复制”输入中的数据,而是生成一条响应内容。这使得它能进行数据格式化,比如将电话号码从 ‘(718) 123–45678’ 转换为 ‘+1 718 123 45678’。
数据提取并不仅限于邮件正文中的文本内容,还可以包含图像、PDF 或其他文档中的数据。 为了完成这些任务,我们通常会结合多种模型使用:包括 LLM(大语言模型)、图像识别模型、OCR(光学字符识别)等。上文描述的流程其实是高度简化版。在现实中,我们通常会将图片发送给 OCR 系统,让它从扫描的发票或表单中提取文本;同时,我们也常常在分析前对附件进行分类处理。
为确保输出为结构化数据,我们强制要求模型的输出格式为 JSON。
以下是邮件输入的示例 —— 一段非结构化数据:
你好,
我想要报案并申请赔偿。
昨天,我9岁的儿子Rajad在和朋友玩耍时,把足球踢到了客厅的吊灯上,吊灯从挂钩上掉落摔在地板上摔碎了(它是玻璃制的)。
幸运的是没有人受伤,但吊灯已经彻底损坏,无法修复。
附件中包含一张发票和几张损坏吊灯的图片。
DeepakJamal合同号:HC12-223873923123MainStreet10008纽约市(718)12345678
模型输出—JSON 格式的结构化数据
{"name":"Deepak","surname":"Jamal","address":"123 Main Street, 10008 New York City, NY","phone":"+1 718 123 45678","contract_no":"HC12-223873923","claim_description":"Yesterday [Dec-8, 2024], while playing with a friend, my 9-year-old son Rajad kicked a soccer ball against the chandelier in the living room, which then broke from its holder and fell onto the floor and shattered (it was made of glass).\nLuckily no one is injured, but the chandelier is damaged beyond repair.\n"}
3. 调用外部服务,保持上下文持久化
许多生成式 AI 系统可以直接回答问题——有时是基于预训练数据,有时是通过微调,或在特定文档上使用 RAG(检索增强生成)技术。但这对智能体来说远远不够。几乎所有具备一定能力的 AI 智能体都必须访问企业内部或外部的数据源,如数据库等系统。
此外,为了使流程的上下文在当前会话之外仍然持续可用,智能体必须将数据写入系统或数据库。以我们的保险理赔智能体为例,它会根据合同号在客户数据库中查询客户信息,并将本次理赔请求的状态写入问题追踪系统(issue tracking system)。更进一步的是 —— 智能体具有“自主性(agency)”,它还可以主动向外部(例如客户)请求缺失的数据。
4. 评估、RAG、推理与置信度控制
每一项行政工作最核心的部分,其实都是在依据规则解释和处理输入的个案。而 AI 在这一点上表现得尤其出色。由于我们在调用模型时无法提供所有上下文信息(例如保险条款或服务协议内容),我们通常会使用**向量数据库(vector database)**来检索相关内容片段,这种技术被称为 RAG(检索增强生成)。
我们会在提示中引导 AI 先“自言自语”推理,再做出判断。这种“先思考、后回答”的方式可以显著提升回答质量—— 这正是我们从三年级数学课上就学会的技能。模型的推理过程,还可以被用于多种显性和隐性的场景,例如:
•向客户提供理由,说明为什么得出这样的答复•帮助提示工程师和数据科学家排查模型错误的原因•用于评估模型是否真的“理解了”问题,还是仅仅“碰巧猜对了”
🔍 我们还会准备一份关于推理与提示工程技巧的小抄[2],方便参考使用。
置信度评估是最大化系统精度的核心手段。如果模型可以估算自己的回答置信度,我们就能据此制定不同的系统运行策略。
📌 提示工程师注意:这通常需要为不同置信度水平提供优秀的 few-shot 学习示例。
我们可以设置一个“置信度阈值”:
•当低于该阈值时 → 自动将任务转交给人工客服•当高于该阈值时 → 系统自动处理该任务
这样可以实现灵活调节:
•置信度阈值设得高:更安全,错误率低,但需更多人工处理•置信度阈值设得低:自动化程度高,但潜在错误风险增加
总结
哇哦!如果你刚才实现了上面所提到的 2 到 3 个步骤,那么你就已经构建出了一个 AI 智能体。我在前文中只列出了这些智能体系统的核心组成部分,其余部分你一定也可以轻松想象得到。你可以选择使用以下框架来实现它们: CrewAI, LangGraph, LangFlow,或其他类似的智能体编排工具。当然,你也完全可以只用纯 Python 实现整个流程。
令人惊讶的是,这样的系统可以自动化理赔部门 70%–90% 的工作量。而这一点,是传统的、非智能体型的生成式 AI 系统根本无法做到的。两年前,我从未想过这个愿景能来得这么快、这么现实。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。