什么是 AI Agent（智能体）？

程序员一粟

于 2025-07-18 21:22:02 发布

阅读量808

点赞数 14

CC 4.0 BY-SA版权

文章标签：人工智能 java 开发语言数据库 ai 编程大模型

本文链接：https://blog.youkuaiyun.com/jennycisp/article/details/149453472

刚开始我也很懵，直到完整的看完了3遍吴恩达在BULIT2024的演讲视频，终于搞明白什么是Agent智能体。

这篇回答主要围绕着斯坦福大学教授吴恩达演讲中的Keynote讲一讲到底啥是Agent。希望能帮助和我一样迷糊的“非技术”背景的AI爱好者，揭开Agent这团迷雾。

Agent中文是智能体、代理的意思。

首先，先来看看Agent（智能体）和Non-Agent（非智能体）的对比

一、Non-Agent和Agent对比

拿写文章这个动作举例子。

大语言模型：我们输入一个提示，大模型一次性的从头到尾的生成一篇文章，中间不能修改。

Agent：它会先写出一个大纲，如果需要找资料的话，它会先联网找资料，接着它先写一份初稿，然后它会思考哪一部分写的不好，开始修改，改好以后再读一遍自己写的稿子，再修改，就这样反复这样的动作，最后形成终稿发给你。

人类：先写出一个大纲，去网上找资料，接着把资料填进大纲里出一份初稿，然后发给领导，或者自己多读几遍，看看哪里不通顺，不够口语化，再删删减减，最后发给领导。

结论：Agent做牛马们要做的活儿

通过刚才的描述，你是否发现，Agent智能体和人类的行为高度相似？

其实智能体终极形态就是靠近一个活生生的人，人做一个事情什么思路，智能体就是什么思路。

吴恩达在演讲中把智能体详细的分成了四类，分别是Reflection、Tooluse、planning、multi- agent collaboration

二、Reflection反思

通俗来讲，Reflection 就像是一个学生在完成作业后自己检查并修改错误的过程

吴恩达在演讲中举了一个例子。

如果用大语言模型塑造了一个“程序员”，你让他写个代码，它给你直接输出了答案，肯定不是最满意的，人类就要不断告诉他哪里需要修改。比如第几行有错误，怎么调整会更好。

但这时候，如果你再新建一个“审查员”角色的大模型，用它来检查代码是否正确，并指出不足之处。根据“审查员”模型的反馈，“程序员”再次进行改进代码。反复循环这样的操作，直到结果让人满意为止。

这样的过程就叫做Reflection反思

这种方法特别适用于需要高质量结果的任务，例如代码生成、复杂文档撰写、法律文件分析等。

三、Tool use 工具调用

通俗来讲，就像让我们人类算一个“12345 × 67890是多少？”咱也算不准，但我们拿个计算器，一下子就能得出准确结论。工具调用就是大语言模型会自己使用计算器。

在实际应用中，它会先识别需求：模型意识到它无法直接回答某个问题，需要借助工具。

再根据任务类型，判断要调用哪个工具，工具可以是计算器、知识库查询、数据库、搜索引擎，甚至是另一个模型。用工具完成任务后，将结果转化为人类易于理解的形式输出。

当大语言模型学会调用工具之后，有几个好处

突破模型能力限制：

语言模型擅长语言理解，但可能在计算、实时信息查询、专业领域数据处理等方面能力不足。工具使用可以弥补这些缺陷。就像人类一样，有人擅长文科，有人擅长理科，但是要是给人们一个计算器，谁都能算出来了。

提升准确性和效率：

比如在回答需要计算或实时查询的问题时，工具能提供精准答案，而不只是基于训练数据进行推测。你可以理解为大语言模型是一个人，塞给它一个工具，它就更准。

扩展模型功能：

这种能力将语言模型从“单一的大脑”扩展为一个“多功能助手”。，如编程调试、数据分析、内容生成等。

ChatGPT添加插件的功能：如果你购买了ChatGPT Plus版，你可以来到插件商店里去选择插件帮助你完成更复杂的问题。

speechki：文本转语音的插件，coupert：找优惠券和促销码，edx：找某个领域的优质课程， one word domains：检查域名是否可用。

四、Planning 规划/reasoning推理

举个例子，如果你发送一段这样的请求，Agent会动用4个模型去解决你的问题。

分别是：

1、openpose 模型用来提取动作

2、google/vit模型用来把动作转成图片

3、vit-GPT2模型，把图片转成文字

4、fastspeech模型，把文字转成语音

这种能力的提升，让AI更加接近真实的智能行为，能够处理更广泛的任务。

五、Multi Agent Collaborative 多智能体协作

吴恩达用了清华大学团队开发的ChatDev来解释这个概念。

ChatDev你可以理解为一家虚拟软件公司，公司里有各类职员，有CEO、CTO、测试员、程序员等等。

在这个公司里，人类是最大的Boss，你可以用一句话，就让这些职员替你打工，完成软件设计开发一条龙服务。

每个职员其实就是一个Agent。

ChatDev将整个开发过程分成了四个阶段。分别是设计、写代码、测试、合作文档

还设计了沟通链条，每次写作两个角色之间会交流沟通完成一个个小任务。

有点像我们平时公司里的那种沟通交流的模式。

在每次交流中，设置了3个机制，分别是角色专业化、记忆流、自我反思

角色专业化是指大语言模型会提前设定好每个角色是干嘛的，比如他会告诉CEO，你是CEO你负责做决定。告诉CTO你负责系统设计。

记忆流保存了，之前对话的全部信息，让智能体不要忘记之前的沟通，做出正确的决策。

自我反思：是指两个人没有达成共识之前，进行自我反思。最后达成共识。

我当时研究了这个虚拟公司以后，仿佛看到了未来AI的样子，每个人都可以是“老板”，你的手下会有一帮AI员工帮你完成复杂高难度的工作。

之所以我们现在感知不强烈，是因为这些模型都停留在代码阶段，并没有被开发成小白也能搞懂的应用。

六、其他大厂们的行动

Google：Astra 项目是谷歌探索通用人工智能助手未来功能的研究原型。

利用多模态理解、多语言、工具使用、原生音频和记忆等能力，谷歌希望Astra能帮助人们理解世界，生活。

2024年12月11日谷歌发布了Project Astra的介绍视频，视频里的小哥拿着带有Astra的手机在伦敦展示了不同的功能。

它能够记得门的密码，还能够帮你讲解如何洗不同材质的衣服，它还可以识别纸上的文字自动帮你搜索这些地点并告诉你都是干嘛的。

去国外旅行某个东西不知道怎么说，它会教你发音。你还可以让他对着某个雕塑，问它历史背景。可以和他聊植物的种类。

它还可以帮你朋友选礼物，只要把你朋友曾经看过的书单给她看，他可以告诉你你朋友喜欢什么。多语言输入它也没问题。

戴上眼镜骑车，你可以随意问它你看到的地点。问它路况和禁止停车区域。回到家你可以问眼镜，你家的门密码是多少，立刻会在你眼前显示。

2025年1月初谷歌发布了名为《Agents》的白皮书，从谷歌角度探讨了生成式AI Agent（智能体）的概念、架构和应用。

OpenAI：

2025年将会是智能体爆发的一年，2025年1月1日，OpenAI CEO 奥特曼公布了公司的新年目标，其中智能体被他列入第二位。

有网友爆料，OpenAI计划推出代号为“Operator”的全新AI智能体产品，能够自动执行各种复杂操作，这个 Agent 将具备直接控制电脑的能力。

Anthropic：2024年10月23日，它发布了开发可以操控计算机的模型。虽然这个模型还没太成熟，让他统计表格数据什么的，会经常出错。但是我们能看到Anthropic努力的方向和愿景。那就是让AI完全帮人类做事。

2024年12月底，Anthropic 公司发布了一篇重磅博客《buliding effective agents》，详细探讨了如何构建高效的 Agent，并分享了他们在这一领域的最新研究成果。

Microsoft：微软在2024年10月的“AI Tour”活动中，宣布将为Dynamics 365系列业务应用推出10个新的AI智能体，涵盖销售、客户支持和会计等领域。

2024年11月11日微软发布了Azure AI Agent ，一个集设计、定制和管理 AI 解决方案于一体的统一平台。

字节跳动（ByteDance）：字节跳动推出了Coze Agent平台，积极布局AI智能体领域。

最后，在写完这篇稿子的时候，我有一个非常强烈的感知，那就是AI颠覆世界的轮廓在慢慢变得清晰，我们在科幻片中看到的未来即将成为现实，我很荣幸能参与这个时代，见证科技以更高速的发展改变我们的生活。

h_order=1&q=字节跳动&zhida_source=entity)（ByteDance）**：字节跳动推出了Coze Agent平台，积极布局AI智能体领域。

这篇文章所有的参考资料，以及谷歌和Anthropic公布的白皮书和博客的链接都在下方，如果需要，可以去下载。

那么，如何快速系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》，扫码获取~

在这里插入图片描述

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

在这里插入图片描述

9周快速成为大模型工程师

第1周：基础入门

了解大模型基本概念与发展历程
学习Python编程基础与PyTorch/TensorFlow框架
掌握Transformer架构核心原理

第2周：数据处理与训练

学习数据清洗、标注与增强技术
掌握分布式训练与混合精度训练方法
实践小规模模型微调（如BERT/GPT-2）

第3周：模型架构深入

分析LLaMA、GPT等主流大模型结构
学习注意力机制优化技巧（如Flash Attention）
理解模型并行与流水线并行技术

第4周：预训练与微调

掌握全参数预训练与LoRA/QLoRA等高效微调方法
学习Prompt Engineering与指令微调
实践领域适配（如医疗/金融场景）

第5周：推理优化

学习模型量化（INT8/FP16）与剪枝技术
掌握vLLM/TensorRT等推理加速工具
部署模型到生产环境（FastAPI/Docker）

第6周：应用开发 - 构建RAG（检索增强生成）系统

开发Agent类应用（如AutoGPT）
实践多模态模型（如CLIP/Whisper）

在这里插入图片描述

第7周：安全与评估

学习大模型安全与对齐技术
掌握评估指标（BLEU/ROUGE/人工评测）
分析幻觉、偏见等常见问题

第8周：行业实战 - 参与Kaggle/天池大模型竞赛

复现最新论文（如Mixtral/Gemma）
企业级项目实战（客服/代码生成等）

第9周：前沿拓展

学习MoE、Long Context等前沿技术
探索AI Infra与MLOps体系
制定个人技术发展路线图

👉福利篇👈
最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】