- A:“你这个只能叫工作流,不能叫 Agent。”
- B:“这怎么不是 Agent?”
- C:“而且只要能解决问题,是不是 Agent不重要。”
这样的争论,如果你身处 AI 行业,想必已经听得耳朵起茧了。
语言的核心痛点往往在于语义偏差:说者与听者身处不同的上下文,导致了大量的无效沟通。
聪明人试图用词汇创新(Agentic, True Agent)来精准定义,结果却像“打马赛克”一样,反而制造了更大的认知隔阂。
你以为我们在聊技术,其实我们在聊路线;你以为我们在聊现在,其实有人在聊未来。
如果不先对齐“词汇定义”,所有的讨论都是鸡同鸭讲。
人与人的沟通如此,Agent与人的交互是如此,我们对于Agent这个词的争论,亦是如此。
一、Agent的三类主流定义
从Agent这个词出来开始,关于其定义的争论就没有停下来过,有些人说自己构建了一个Agent智能体,一定会有人反驳说这并不是真正的Agent,然后又有一些人冒出来说你们的争论没有必要,反手掏出了一套新的标准。
目前看起来,现在主流又具有一定合理性的观点有三类:
1. 第一类是务实派
只要用到了大模型就是Agentic systems,但是呢,根据是否预设流程,给他分为工作流式的Workflow和自主式的Agent。
他们通常说:黑猫白猫,能抓着老鼠就是好猫,AI赋能不应该炫技,应该追求实际工作的务实落地,ROI计算流派主导。
2. 第二类是革新派
认为智能体分“被编码的自动化程序” (False Agent) 和 “被训练出来的智能体” (True Agent),只有具备高自主性,能够自行决策完成规划、执行动作的才能称作真Agent,不具备自主性,只是人为设定节点来串联LLM已经叫传统AI了。
他们通常说:过去火热的AI框架和工作流平台都是时代的余孽,真正的Agent应该简单而强大,LLM原生流派主导。
3. 第三类是学术派
他们认为智能体是一个程度形容词,不用去定义它是否Agent,而只需要看它的智能程度,把智能体称作Agentic AI或Agentic Workflows,智能体都处于低自主性、半自主性和高自主性的中间态。
他们通常说:与其争论哪些词能代表真正的智能体,不如承认系统可以有不同程度的智能体性,这有助于我们摆脱什么是真正智能体的争论,从而专注于实际构建智能体。
看起来是不是像在和稀泥,就这样来回折腾,产生了各种名词
AI min/max
AI power/native
less/Highly Autonomous
Workflow
Agent
chat Agent
Agent model
Agentic
Agentic systems
Agentic Workflows
这些名词混在一起,并夹杂着各种英译中的和各类科普文章的信息压缩,很难搞清楚这些名词定义及其之间的关系…
反正我最开始看这些词的时候是真晕了。
对于已经精通Agent开发的人来说,他们已经无招胜有招了,怎么定义都无所谓,因为不影响他们落地,甚至他们其实师出同门,互相破不了招,只是打打口水仗。
但对于尚在学习招式的人来说,底层隐含的困惑是:我到底练的唐诗剑法还是躺尸剑法!!!
也就是我们学习和构建Agent的底层范式到底对不对,用这个范式能否对市面上所有的Agent产品的技术路线进行分类?
ok,今天让我们尝试来拆解一下这套连城剑法的真义。
首先来拆解一下三个流派的底层逻辑,在这之前我解释一下连城诀的故事,便于大家理解。
《连城诀》里,唐诗剑法是老前辈创的真剑法,每招对应唐诗(包含密码本+摩斯码),既藏武学真义也藏宝藏密码;后来被世人称为连城剑法(因为关联“连城诀”宝藏),成了实用层面的统称;反派Boss把它“优化”成躺尸剑法,虽然丢了本源,但却能快速练出实战能力。
唐诗代表真义,剑法代表技术,宝藏代表财富,这个设定还是很有意思的。
连城剑法——务实派(ROI 计算流派)的现实生存法则
就如Anthropic所说,最成功的实施方案都采用简单、可组合的模式,而非复杂的框架。
Anthropic认为,不管是能够在较长时间内自主运行、使用各种工具来完成复杂任务的系统,还是遵循预定义工作流程的、更具指令性的实现方式,这些变体都可以归类为Agentic systems,但在架构上对工作流程和智能体做出了重要区分。
- Workflows是通过预定义的代码路径来协调大语言模型(LLMs)和工具的系统。
- Agents是指大型语言模型(LLMs)能动态指导自身流程和工具使用,并对完成任务的方式保持控制的系统。
(翻译易失真,原文附上以供参照)
这个分类方式还是非常符合我们实际项目情况的,生产环境往往不看用了什么技术,就看最终有没有解决实际问题,掏钱的人只看结果。
而从实际落地出发,确实大部分项目没必要或者没法用Agent模式,这个一方面在于部分垂直行业的封闭性以及模型在垂直场景能力还不足够;另一方面也和AI 应用工程师往往不具备Agent模式开发思维,更习惯软件工程的方式去做 AI 项目有关。
但我感觉更多的还是AI 发展太快了,3 个月前“Agent模式能否解决细分场景问题”的验证结论在现在看大概率是错的,一般的企业其实试不起这个错。
看了很多AI分享,有个有趣的现象,台上分享的很多都是创业者,都在说Workflow已死、Agent可期,而台下的听众大多都是传统行业的实践者,他们都是企业模式下要解决历史遗留问题的人,实践路径上好像只能走通Workflow,台上台下比较割裂。从表面现象来看,似乎有历史遗留问题的,适合 Workflow,全新的没有包袱的,适合 Agent。
从这个角度说,AI作为目前风口上的变革技术,对大多数企业来说是一个**“连城诀宝藏”**,核心还是算清楚想收获什么结果,以及能/愿意付出什么代价,至于短期能不能换来收益,目前Workflow 看起来是很明确的,Agent 不是非常明确,对于这些带着历史包袱的企业来说:
有明确事情可以做的时候不会去选择做不明确的事情的。
这就是 ROI 计算流派。
躺尸剑法——革新派(LLM原生流派)的技术破局宣言
这里其实是有两个意思。
一个是唯心的,希望从业者不要被传统硬编码的确定性思维模式束缚,Agent 应该基于LLM 的不确定性思维模式来设计,从业者从组织、心态和思维模式,都要充分接受大模型输出的不确定、分工协作模式的不确定、工作技能要求的不确定。
一个是唯物的,模型是所有人类知识的集合,人已经没有模型思考的全面、可靠了,充分相信未来一定是模型覆盖应用,而且这个时间不会太长,所谓的 Know-how看起来似乎是在用专家经验弥补模型的不足,实际在用人类的有限经验限制模型的强大推理能力。这种牵线的木偶人,体现出来的就是伪智能,并且搞笑的是,这种工程复杂性换结果确定性的游戏也并没有解决实际问题,系统复杂度稍微高一点,工程难度就直线飙升到无法优化。
分类没有贬低的意思,甚至我们知道电视剧里的反派 boss 都是聪明和努力的代名词,我觉得革新派说的非常好,清楚的指出目前企业以追求 ROI 落地方式下的三个问题:思维模式、能力瓶颈和淘汰危机。
说这不是真 Agent,是想用极端的方式告诉你:思维模式不变你一定干不好,在错误的方向努力不仅收获不到短期效果,最终的结果依然是被淘汰。
正确的路径是什么,来,他们告诉你:
第一,各行业的高质量用户一定是第一批拥抱 Agent,学会使用 Agent,并用好Agent 的人,他们清楚的知道自己未来不再是软件工程的建筑设计师,而是大模型接口的接线工和Agent组织的管理员,要做的是将数据、工具、权限的管道打通以及Agent 组织管理的工作。
第二,基于第一条,不管你用不用 Agent,模型厂商都等同于有足够多的高质量用户辅助开展数据驱动的持续训练,你的任务轨迹数据将作为高质量的训练数据参与微调,重复“新模型发布-验证产生数据-新模型发布”的循环。直到:模型接管工作。
第三,基于前两条,评估你的行业能坚持多长时间,以及是否足够闭塞到大模型无法介入,并在这个周期内拥抱 Agent,学会使用 Agent,并用好 Agent。
不然?不然你要不被AI原生年轻人替代,要不被AI原生年轻人颠覆,这几乎是阳谋,革新派?不,“我们”叫自己敲钟人~
这就是 LLM 原生流派。
唐诗剑法——学术派的自主性梯度坚守
你看你看,务实派不跟你讲未来可期,体现出来的是对短期低 ROI 的探索不感兴趣,革新派不跟你讲现实难题,体现出来的是对短期业务增长情况漠不关心。

但大家都能看得出来,务实派与革新派在这里有一个共识:大模型未来可期,但当下的技术成熟度仍有差距。
其争论的焦点,看上去似乎是现阶段 AI Min (AI Power) 与 AI Max (AI Native) 的路径之争?
其实不对!
第一,在学术派看来,当下的定义之争其实并不重要,真正的 “真义”,是沿着自主性梯度,共同走向 AGI 的终极目标。
从理想的角度来说,我们需要站在更长的时间轴上看,现在的“显学”,未来都只是背景介绍。在金庸笔下,当主角最终练成神照经、解开连城诀秘密时,之前江湖上关于招式的争夺都成了笑话。
若干年后,当我们回看这几年关于“Workflow 还是 Agent”的激烈辩论,这在 AI 进化史书中可能只是一句简短的背景介绍:“在通往 AGI 的早期,业界曾短暂地在确定性与灵活性之间进行过探索性的分叉。” 甚至连我们现在顶礼膜拜的 Transformer 架构,或许也只是通往 AGI 路上的一块垫脚石。
第二,路径之争是表象,从更底层的视角看:Workflow 与 Agent 的对立,本质是智能体自主性梯度上的不同阶段。
就如 openai 提出的AI应用分级,将通往 AGI 的道路基于AI系统的能力、自主性和智能水平分为 5 级。
- L1:聊天机器人(Chatbots),主要用于对话和简单的信息交流。
- L2:推理者(Reasoners),能够进行推理和问题解决,展现出高级推理能力。
- L3:智能体(Agents),能够完成长期任务,具备更强的自主性和决策能力。
- L4:创新者(Innovators),具备创新能力,能够像科学家一样发现新的科学信息和技术突破。
- L5:完整组织(Organizations),能够像公司或组织一样运作,具备全面的决策、规划、执行和协调能力。
前者主张 AI < Software,用 AI 赋能现有流程,把大模型压缩进软件的笼子里做超级插件;后者主张 AI > Software,让软件生长在 AI 之上,视大模型为新的操作系统。
从这个框架来看,当下的大部分企业正处于 L1-L2 阶段, Workflow 是适配模型能力与企业需求的最优解,无需为 L3 阶段的问题担忧;而革新派探索的原生 Agent,是对 L3-L4 阶段的提前布局,也别想着帮企业跳过必经之路。
至于最终能不能达成 AGI,这似乎不是我们现在就应该规划的问题。
从现实的角度来说,即使达成也必然是一个超长期共存的状态,至少在 2025 年最后一周,我看到的现象是:一边是 vibe coding的疯狂,一边是 Agent 能力的大爆发,一边是企业 Workflow 落地的飞起,一边是体制内企业的岿然不动,大家都在各自的环境里盲人摸象,做着自己觉得对的事情,我是感觉很割裂的。
这体现出来的是什么?
是泡沫。
泡沫带来的是繁荣吗?
不一定,但泡沫往往能带来产生繁荣的土壤。
我们似乎一直很擅长用下一代的理念(泡沫)驱动这一代的技术(土壤)来解决上一代的问题(繁荣),事实上我们就是这么干的,这是世界级的击鼓传花游戏。
这么看,我们讲的是 Agent 吗?不,我们可能讲的是数字化的深层命题。
二、用“我的世界”逻辑拆解和组装Agent
接下来我们用原子化拆解再组装的方式,先拆解Agent和LLM的关系,再用这些原子化节点进行组装来解释这些名词,从时间维度建立框架,就能把所有的这些名词解释清楚了。
Agent原始定义
我们先看看最原始的定义。
Agent 系统(智能代理系统)是一种能够在特定环境中感知、决策并执行动作的自主计算系统
你看,一点没提泛化能力,理论上来说我们写一个定时关机的指令也是 Agent,这个我们就叫他经典 Agent 吧。
但我们当然不能这样去窄化它,我们得把范围约束到 AI Agent,至少得用上大模型对吧,ok,这样第一代 AI Agent 的定义就出来了。
AI Agent 系统(AI智能代理系统)是一种运用 LLMs 技术,能够在特定环境中感知、决策并执行动作的自主计算系统。
有人要说了,不对不对,重点不应该是用没用大模型,真正的 Agent是利用大模型的泛化能力让其能够在非硬编码的场景下解决问题。
ok,提的非常好,第二代 AI Agent 出来了。
AI Agent 系统(AI智能代理系统)是一种运用 LLMs 技术,能够在特定环境中感知、决策并执行动作的自主计算系统,与第一代 AI Agent 对比,其充分利用了大模型的泛化能力进行自主决策。
实际上,当前主流的称呼是将第一代AI Agent 称作 Workflow,第二代AI Agent 继承了 “True Agent”的定义,但是两代定义构建的“AI 智能代理系统”全都统称 Agent。
至于其他如tool Agent,chat Agent,大家就当做是一个依据某一代定义开发的AI Agent系统,或是一个用途描述的词组,描述用于聊天的 Agent、用于工具使用的 Agent。
小技巧,聊起来就问一句:“你说的 Agent 是统称,还是指真正的 Agent。”,就对齐好了。
- 单说 Agent 时候,一般说的是一、二代的统称;
- 讲 Agent 落地技术的时候,一般说的第二代;
- 提到类似“真正的 Agent”的时候,说的第二代;
- 和 Workflow 一起出现的时候,说的第二代;
- 当说类似“chat Agent”这类描述,说的是特定场景的归类。
来上个表格对比下:
| 阶段 | 核心定义 | 关键特征 | 对应形态 |
|---|---|---|---|
| 经典Agent(原始) | 能感知环境、自主决策并执行动作以达成目标的计算实体 | 自主性、反应性、目标导向,无LLM强依赖 | 传统智能代理(如简单机器人、定时任务) |
| 第一代AI Agent(Workflow) | 基于LLM但按预设流程/节点串联的Agentic系统 | 流程固化、工具调用可控、ROI优先 | 企业落地主流(如审批流、数据报表自动化) |
| 第二代AI Agent(True Agent) | 基于LLM泛化能力,动态规划、自主决策的Agentic系统 | 非硬编码、多步推理、环境自适应 | 革新派主张的“真智能体”(如自主科研、复杂任务规划) |
写到这里,我们其实已经把标题问题的结论给出来了。
接下来我们看看为什么会有两代之分,且为什么说第二代继承了第一代。
这里分 10 小节,整个历程不是按照真实时间发展线路来的,也和各类权威论文的描述有些差异,更多的是一个总结性拆解,但是这么拆解我认为更容易理解 Agent的本质,大家辩证的看,也欢迎在评论区聊。
另外会放点图片和代码,稍微有点干,朋友们可以先去打杯热水,不想关注细节的朋友可以只看”第二代Agent的上位与第一代Agent的失宠”和“模型发展与Agent 的关系”这两部分关键结论。
最小化Agent节点
最开始,有个极简的最小单元 Agent,其实它的作用就是充当人类输入和大语言模型中间的桥梁,让人类能够通过自然语言的方式与大模型交互,也就是我们常说的大模型API套壳,我们通俗点叫他“封装器”。
- 结构:「用户输入 → 提示词 → LLM」
- 功能:仅完成 “输入指令→LLM 直接输出结果”,无额外能力
- 例子:直接用 GPT 3 对话(无记忆、无工具)
- 拟人:类似反射神经,接受刺激后给观测者即时反射结果

这种方式最开始只能针对用户给的文字进行续写,无法进行聊天,更不具备记忆和交互能力。
# 强烈建议做一个最小化 手搓Agent实验# 运行方式:1、安装 python 环境 ,2、运行pip install openai python-dotenv。# 生成一个最简单的代码,主要是借助代码理解逻辑,把这一小节复制给任意 AI 即可。
所有的Agent都是基于这个最小化的架构,只是增加了相应的模块组件,接下来我们来组装第一代AI Agent。
公式1:最小化 Agent = 封装器(提示词) + LLM
第一代 Agent的模块
1. 记忆模块
后来,为了能让 Agent 记住历史对话,维持多轮对话的连贯与自然,给“封装器”增加了记忆模块,形成能够记住历史信息的 Agent,通俗点就叫他“记忆增强型封装器”。
- 结构:「用户输入 → 提示词 + 记忆模块 → LLM」
- 功能:能留存对话 / 交互历史,理解上下文(比如连续聊天时记得之前的内容)
- 例子:日常的聊天机器人(如ChatGPT 的对话模式)
- 拟人:类似大脑皮层+海马体,留存过往信息、基于记忆调整反应

此时,Agent 从单次问答转向多轮对话,能理解用户的指代、省略和上下文依赖。
# 强烈建议做一个带记忆模块的 手搓Agent实验# 运行方式:1、安装 python 环境 ,2、运行pip install openai python-dotenv。# 生成一个最简单的代码,主要是借助代码理解逻辑,把这一小节复制给任意 AI 即可。
公式2:支持记忆能力的 Agent = 封装器(提示词+记忆模块) + LLM
2. 工具模块
再后来,为了能让 Agent 完成载体世界的任务,又给“封装器”增加了工具模块,形成支持工具调用能力的 Agent,通俗点就叫他“工具增强型封装器”。
- 结构:「用户输入 → 提示词 + 工具模块 → LLM → 调用外部工具(搜索、计算、API 等)→ 返回结果给LLM → LLM整理输出结果 → 返回最终结果」。
- 功能:调用外部工具完成复杂任务(比如查实时信息、算数据、操作软件)。
- 例子:用代码实现,调用计算器进行数学计算,比大模型直接推理更精准。
- 拟人:为脑子接入各种功能的触角,在软件系统(载体世界)依赖工具选择器可以单次触发预设技能使用。

此时,Agent 从靠模型自身知识回答转向借力外部工具完成模型做不好的事,解决大模型知识过时、计算不准、能力边界有限的问题。
# 强烈建议做一个带工具模块的 手搓Agent实验# 运行方式:1、安装 python 环境 ,2、运行pip install openai python-dotenv。# 生成一个最简单的代码,主要是借助代码理解逻辑,把这一小节复制给任意 AI 即可。
公式3:支持工具调用能力的 Agent = 封装器(提示词+工具模块) + LLM
第一代Agent的典型组装
1. chat Agent
Chat Agent的核心需求是实现自然、连贯的多轮对话,同时能应对用户的信息查询需求。因此在记忆模块的基础上,补充检索工具(如向量数据库检索、网页搜索),提升信息的时效性和准确性。
核心逻辑是用户输入后,先通过记忆模块关联历史对话,再判断是否需要检索外部信息(如用户问“今天的天气”,需要调用天气检索工具;用户问“你刚才说的内容”,仅需调用记忆),最后由LLM整合信息输出。

Chat Agent 组装方式= 封装器(提示词+记忆模块+工具模块【检索工具】) + LLM
2. Workflow Agent
Workflow Agent的核心是“按预设流程分步执行”,适用于标准化、重复性的任务(如数据报表生成、审批流程处理)。其本质是将复杂任务拆解为多个固定节点,每个节点对应一个基础Agent(封装器+LLM),通过流程控制器串联执行。
核心逻辑:流程控制器定义节点顺序和触发条件,每个节点接收上一节点的输出作为输入,完成特定子任务,最终输出整体结果。例如“月度销售报表生成”流程:1. 数据提取节点(调用数据库工具)→ 2. 数据清洗节点(LLM+数据处理工具)→ 3. 报表生成节点(调用Excel工具)→ 4. 结果推送节点(调用邮件工具)。

Workflow Agent 组装方式= N*Node+{封装器(提示词) + LLM}
3. Workflow 编排平台
对于很多有开发能力的企业来说,一个很大的疑问是,用这玩意比写代码好在哪?
其实,既然 Workflow 是节点(Node)的串联,那写代码当然可以,但为什么现在流行 Coze、Dify 这种可视化编排平台?
编排平台 = 可视化 IDE + 预置组件库 + 托管运行环境。
简单来说:
- 可视化 vs 纯代码:人类大脑对图形的处理效率远高于文本。在处理复杂的业务逻辑分支(如果 A 则 B,否则 C)时,连线图比嵌套的 if-else 代码更直观,更容易发现逻辑漏洞。
- 调试与所见即所得:好的编排平台允许你在每个节点打断点,查看输入输出。这就像给黑盒子的 LLM 装上了透明外壳,极大地降低了 prompt 调优的门槛。
- 快速复用:别人写好的“联网搜索组件”、“PDF解析组件”,拖拽即用,不需要你再去读 API 文档写 import requests。
所以说,Workflow 编排平台是第一代 Agent 工程化的集大成者,它把“写代码”的门槛降到了“画流程图”,让不懂 Python 的业务人员也能组装 Agent。
第一代Agent落地范式
第一代 Agent 落地以基础能力叠加场景适配为核心逻辑。
- chat形态,以 “LLM + 提示词 + 记忆” 为基础构成聊天机器人,核心是通过提示词与记忆实现上下文能力。
- 知识库 Agent,在 chat 的基础上增加了工具模块,对应知识库、AI 客服等产品,核心是 RAG 模块与数据治理的结合。
- Workflow形态,包含多种组合模式 —— 无论是 “提示词 + 工具 + 编排工作流” 搭配单 LLM、多 LLM 独立工作或并行工作,我们常见的比如AI 问数产品核心是意图识别(覆盖问题澄清、任务拆分等能力),多数 AI 产品则聚焦业务理解与工具成熟度。
这类产品的常见入口,主要是Chat 窗口、Web 系统、客户端嵌套(如企业微信、微信)、AI 表格及 AI 浏览器。

第二代Agent的上位与第一代Agent的失宠
大家可能会说:针对Agent的定义,我看的最多的是下面这张图片,这不应该才是真正的 Agent的初始定义吗?

是的,这也是我最开始学习的时候看的最多的,到现在也深受影响,我们的拆解基本也是基于这个理念,且第一代和第二代Agent最大的区别就是 planning的理解和应用。
其实最开始的 planning 并不是指大模型进行任务规划后处理,而是通过提示词的方式让大模型假装在思考,实际上他依然还是海量数据的概率性完型填空,它们的作用仅仅是让我们的答案命中更精准的数据以及对输出格式的框定。
- 比如,我们常说的 COT(思维链),就是在提示词中明确要求分步推理,本质是引导大模型调用训练数据中相似的推理文本片段,按顺序拼接输出,而非真的理解每一步的逻辑关联。
- 同样,提示词中的Reflection(反思),只是匹配训练数据中 “纠错类文本” 的模式,生成看似有逻辑的修正话术,并没有真正的自我监督和逻辑校验能力。
对,我们都被大模型骗了,他真的没有在做反思、自我批评、分步推理和目标拆解,只是你说了要这么做,它就骗骗你而已,毕竟他没这功能,你又需要情绪价值嘛~
那真正的 planning 是什么?
他可以是 React,不停的做推理-行动-观察,直到模型判断任务已完成。

也可以是Plan-and-Solve,先规划,再分步执行,执行的时候把React套娃套进去。

还可以继续套娃,引入Error-Reflection-Revision(错误-反思-修正)这个模式后,在React循环结束时,我们视作初次完成任务,让模型进入反思阶段,如果发现答案有问题,就进行优化并再次进入React循环,直到问题彻底解决为止。

理论上还能套,ERR循环(目标拆解-ERR循环【React循环】),这看起来真是一个完美的方法论…
所以 Workflow 失宠,Agent 上位的原因也很简单:其充分的想象空间,在 Workflow 被验证出它的局限性和上限的时候,就自然而然的变成了研究和吹捧的对象。
当然,这也为 token 的指数级增长埋下了伏笔
第二代Agent的模块
1. 规划模块
所以接下来的故事大家都知道了,为了能让 Agent 能够真正的自主规划和决策能力,在第一代 Agent 的基础上,又给“封装器”增加了规划模块,形成支持反思、自我批评、分步推理和目标拆解能力的 Agent,通俗点就叫他“规划增强型封装器”。
- 结构:「用户输入 → 提示词 + 记忆 + 工具 + 规划模块 → 拆分步骤 → 逐步执行 → 判断执行结果 → 重复执行 → 判断执行结果 → 确认完成 → 返回结果」
- 功能:每单轮对话——N次LLM交互(取决于规划任务数和轮数限制),能把复杂任务拆分成子步骤,自主决策执行顺序,并判断执行结果是否满足要求。
- 例子:做出行计划,需要先查可游玩的地点、再查对应时间的天气、再根据地点和天气规划行程。
- 拟人:为脑子接入规划能力,并赋予自主决策执行的权限,在软件系统(载体世界)依赖自身思考能力和工具选择器可以自由组合解决复杂问题。

此时,Agent 是真的自行决策来开展规划、执行动作,由大模型主导完成了经典 Agent 的感知-推理-规划-执行全链路自主,在非硬编码的情况下独立完成复杂多步骤任务。
# 强烈建议做一个带规划模块的 手搓Agent实验# 运行方式:1、安装 python 环境 ,2、运行pip install openai python-dotenv。# 生成一个最简单的代码,主要是借助代码理解逻辑,把这一小节复制给任意 AI 即可。
公式4:支持规划能力的 Agent = 封装器(提示词+记忆模块+工具模块+规划模块) + LLM
2. 协作模块
基于组织分工的理论,单个个体的能力、资源、效率是有限的,通过组织能把分散的个体整合起来,可以实现 “1+1>2” 的价值放大,同时降低风险、持续创造长期价值。

我们长期受到这种“人多力量大”类理论的影响,几乎产生了一种直觉,任务更复杂 → 加更多 Agent、分工协作 → 性能更强。就这样,多智能体应运而生~
- 结构:多个不同功能的 Agent(比如 “搜索 Agent”“写作 Agent”“审核 Agent”),通过 “协作模块” 分工协作。
- 功能:不同 Agent 负责不同环节,共同完成复杂任务。
- 例子:AI 团队(比如 “策划 Agent + 文案 Agent + 排版 Agent” 共同做一篇推文)
- 拟人:多个人合作,类似一个小型团队,各司其职,共同完成目标。

但实际落地效果并没有那么理想,管理成本高了,但是效果并没有太多提升,属于理念先行,技术落地没有跟上的部分。
第二代Agent的典型组装
1. code Agent(垂直 Agent)
Code Agent是专注于代码开发相关任务的垂直领域Agent,核心能力包括代码生成、代码调试、代码重构、技术文档撰写等。
这是目前第二代 Agent 落地最成功、最接近“完全体”的形态。为什么?因为代码世界是全封闭、确定性高、反馈极快的沙盒。
其基本逻辑简单到就这么几步:Agent 写了一行代码 -> 运行报错(环境反馈) -> Agent 看到报错信息(感知) -> 修改代码(决策与行动)-> 多轮循环 -> 运行成功。
其本质依然是“规划模块+工具模块(代码相关工具)+记忆模块+LLM”的组合,针对编程场景进行深度优化。
目前Code Agent 也开始走向通用 Agent,感觉这个代表我们在实际工作中已经慢慢探索出一条可以用 Agent范式完全覆盖的工作场景,并在基于这个场景不断延伸。
2. General Agent(通用 Agent)
虽然目前通用 Agent 依然极其脆弱,一步错步步错,在开放环境下的成功率远低于 Workflow,但它可能是通往 AGI 的真实路径。
通用Agent的主要难点在于,代码世界是人为设定的规则世界,AI 相对擅长,但现实世界的复杂性和不确定性远超封闭的代码环境,包括环境不确定性高、目标定义模糊、反馈链路复杂等,甚至有时候并不是 AI幻觉,而是人的认知偏差、语义偏差产生的人类幻觉。

尽管当前通用Agent尚未成熟,但部分探索性案例已证明其发展潜力。例如Manus等通用Agent项目,在特定开放场景中实现了基础的自主任务执行能力,暂时还没看到其生产价值,但确实备受资本青睐,用户和资本都用真金白银投了票,代表了一件事:人们已经开始接受从“对话”到“委托”的范式转移。
第二代Agent 落地范式
第二代 Agent 落地向着能力升级 + 形态复合 + 载体拓展演进。
- 基础的Agent形态,核心是LLM + 提示词 + 记忆 + 工具 + 规划的组合,对应的manus类产品则聚焦行业 SOP + 通用工具,偏向标准化场景。
- Agent+Workflow的复合形态,存在两种组合方式:一是Agent + 意图识别 + 工具(Workflow 作为工具), 比如一些 Agent 工作台入口,二是Workflow + 意图识别 + 节点(Agent 作为节点)。像AI PPT这类产品,本质还是复杂 Workflow 的智能化包装,技术路线追求兼顾 Workflow 的稳定与 Agent 的灵活。
- multi-Agent(多智能体),核心是 “分工 Agent + 执行 Agent” 的协作模式,Deep Research 类场景需要并行计算架构和分布式资源管理来支撑;这里要注意,多智能体更多是解决上下文、性能等工程问题,并非直接提升能力本身。
这里的常见入口,由 chatbot 、聊天窗口、AI 表格为主的传统工具,转为了独立客户端,以及 AI 手机、AI 主机等硬件载体。

模型发展与Agent 的关系
我们回顾一下历史,其背后有一条清晰的主线:模型能力驱动场景升级,场景升级驱动应用范式变更。
Agent 的组件模块正在被模型本身吞噬,模型的能力边界又提升了Agent的上限,同时新的 Agent 的应用需求再又反向推动模型的优化方向,二者形成“模块补充-能力供给-需求牵引”的共生关系。
这种共生不是简单的单向支撑,而是伴随模型迭代的动态演进过程,每一代LLM的升级都对应着Agent模块形态的重构。
1. Embedding模型阶段——外挂模块填补能力空白
从几代 LLM 来看,早期的Embedding模型核心能力是完型填空,不具备任何记忆功能,仅能接收单一prompt并输出结果。
此时Agent若要实现长记忆等基础功能,必须依赖外挂模块补充。这一阶段的Agent核心逻辑是“模型+外挂模块”,模块作为模型能力的延伸,是Agent能完成多轮相关任务的关键。
response = client.completions.create( prompt=prompt, # 用户输入的提示)
上述代码是该阶段的典型Agent交互模式,模型本身无记忆留存能力,若要实现长程上下文关联,必须额外对接向量数据库等外挂存储,将历史对话信息编码后存入,再在新prompt生成时提取相关记忆拼接,以此实现“伪记忆”效果。此时Agent的记忆模块完全独立于模型,是纯粹的“补充性组件”。
2. Chat模型阶段——记忆模块前置构建
随着Chat模型的出现,LLM的交互模式从单一prompt升级为多角色对话,API参数也从prompt转变为messages,需要明确区分role和content。
这一变化的核心是模型经历高质量多轮对话数据训练后具备承接多轮对话的基础语义能力,结合厂商侧Chat API内置的对话序列管理,实现了多轮对话的上下文衔接,相当于将Agent的“记忆模块”中短期记忆的前置化封装,API开始具备基础的记忆感知能力。
response = client.chat.completions.create( messages=[{"role": "user", "content": prompt}], # chat API需要使用messages参数)
此时Agent无需再依赖外部向量数据库实现基础多轮对话,通过messages参数自动留存对话历史,大幅简化了Agent的架构。但这一阶段的本质依然是外挂记忆模块,只是模型提供商将这个Agent 构建过程前置了。
另外,理论上我们的提示词都是经过了模型代理商通过这种方式多轮封装再提供给最终大模型的。
3. thinking模型阶段——规划模块初步内化
Thinking 模式的核心,同样是模型经过高质量反思型对话数据训练后,具备了承接链式思考的基础语义能力。
此前Agent的规划能力需通过复杂的prompt引导或外挂规划引擎实现,而现在模型本身已具备自主推理、步骤拆解的能力,无需额外引导即可完成复杂任务的规划与执行。
这种 “承接思考的能力”,仍是基于语义关联的模拟推理(依然是复杂完型填空),模型没有真的一步一步在推理、思考。但并不是说这种能力没用,本质上这种思考能力是 Agent 实现自主决策的基础:模型能够基于任务目标拆解步骤、评估路径,为后续的 “感知 - 决策 - 行动” 闭环提供逻辑支撑。
4. 模型持续发展
当前阶段,Agent的工具模块能力在快速发展,比如MCP、Skills,都是提升Agent工具调用能力和工具调用准确性的工程策略,模型能力围绕着工具调用做了非常多优化,已经具备生产落地的能力。
这些模型在记忆模块、规划模块、工具模块侧的能力增强,真的大大简化了 Agent 的构建难度,可以说模型已经成长为具备独立决策、工具选择、多轮问答的高级智能,Workflow 这种将其当成每次处理一段数据的完型填空临时工的方式,在 25 年上半年是补短板的手段、在下半年就变成拖后腿的了,也是蛮神奇的。
26 年预计是往记忆模块发展,从模型侧继续完善记忆模块的工程优化接口,降低Agent记忆模块的构建难度,优化 token 消耗、提高记忆检索精准度。
模型的“吞噬”式演进并非主动发生,核心驱动力是Agent在实际应用中暴露的需求与问题,Agent的场景化需求为模型优化提供了明确方向,让模型升级更具针对性。
- 正如Claude Code 创造者 Boris Cherny所强调的:“不要为今天的模型去开发,要为 6 个月后的模型去开发。” 本质是看透了这个循环。
这种情况下,卖铲子的卷速度,卖结果的攻业务,卖人头的再想想清楚。
关于第三代Agent的猜想
1. Agent OS与人类 UI 融合
人类与 AI 共同的原生操作系统,未来的操作系统不仅仅是给人点的,是给 Agent 读的,APP 给人类提供 UI,给 Agent提供 API。
2. Agent Model自进化
理论上已经可以做到不再依赖人类更新代码,而是能够自己重写自己的操作系统,自己微调权重。
本来是准备把 Agent 的落地范式独立一个大章节来写,至少应该得把 workflow、垂直 Agent、通用 Agent 和各个类型的 Agent入口之间的关系讲清楚,但本文已经有点过长了,我也有点写不动了,先大概放了一点在这一章,详细解析留到下次把。
三、终极洞察!
第一章最后抛了个钩子,不知道大家能不能 get 到我的点,大家可能已经想不起来了,我重新引用一下。
这么看,我们讲的是 Agent 吗?不,我们可能讲的是数字化的深层命题。
其实想说的是,Agent 的技术泡沫本身都只是表象,其背后真正的价值,是借由这场技术热潮,倒逼企业完成过去迟迟未能落地的数字化补课。
结合历史规律来看,这其实是技术变革的典型路径:泡沫催生基础设施,基础设施沉淀为数字化能力,最终重塑产业的底层形态。
哪怕当下的 Agent 还不成熟,但其万物皆可 Agent化的叙事,点燃了市场对 “彻底数字化” 的想象。这种想象带来的泡沫,会吸引资本、人才、资源涌入,倒逼企业去梳理混乱的业务流程、打通孤立的数据孤岛、标准化模糊的业务规则 —— 这些正是数字化的基础工程,而其本身又没太大价值。
原生 Agent离大规模落地还太远,但 Workflow 是企业能立刻上手的工具。它看似是退而求其次的选择,实则是泡沫转化为实际价值的关键土壤:企业用 Workflow 串联大模型和业务系统的过程,本质就是把模糊的业务需求转化为标准化的数字流程的过程。这个过程中,企业会完成三件事:
- 梳理清楚:谁在什么环节需要什么数据/工具;
- 沉淀出:可复用的业务规则和数据接口;
- 培养出:一批懂业务 + 懂 AI的复合型人才。
说 Workflow 是 Agent 的必经之路你可能不服,我说数字化是 AGI 的必经之路总没问题把。而这些Workflow 过程中沉淀下来的数字化能力,又成为 Agent 技术真正大规模发展和落地的基础。
这才是真正的路径。
回归现实,技术泡沫褪去后,“最终的世界形态” 是什么?
经过 Agent 泡沫的洗礼后,带来的是企业数字化能力的普遍跃升,数据能自由流动,流程能灵活适配,人机能高效协同。
到那个时候,不管有没有实现 AGI,Agent 和 Workflow 的界限都会变得模糊,低复杂度任务用Workflow低成本开展,高复杂度任务用高自主 Agent 动态处理,特殊任务再用Workflow 按需调整,用户基于需求灵活调配,二者基于统一的数字化底座无缝衔接。
站在这个高度,当下的争论已不再重要,重要的是——你是否在路上~
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

被折叠的 条评论
为什么被折叠?



