作为本系列的开篇,我们将回归原点,剖析智能体(Agent)的本质定义,回顾其从“传统规则”到“大模型驱动”的演进脉络,并揭示新旧范式背后的核心差异。
1.1 智能体?
在探索任何一个复杂概念时,我们最好从一个简洁的定义开始。在人工智能领域,智能体被定义为任何能够通过传感器 (Sensors) 感知其所处环境 (Environment),并自主地通过执行器 (Actuators) 采取行动 (Action) 以达成特定目标的实体 。
智能体的四大基本要素
这个定义包含了智能体存在的四个基本要素 :
-
环境 (Environment):智能体所处的外部世界。
例:自动驾驶汽车的环境是动态变化的道路交通;交易算法的环境是瞬息万变的金融市场。 -
传感器 (Sensors):智能体并非与环境隔离,它通过传感器持续地感知环境状态。
例:摄像头、麦克风、雷达或各类应用程序编程接口 (API) 返回的数据流。 -
执行器 (Actuators):智能体通过执行器来改变环境的状态。
*例:物理设备(如机械臂、方向盘)或虚拟工具(如执行一段代码、调用一个服务)。 -
行动 (Action):基于获取的信息,智能体采取的对环境施加影响的具体行为。
然而,真正赋予智能体“智能”的,是其自主性 (Autonomy)。智能体并非只是被动响应外部刺激或严格执行预设指令的程序,它能够基于其感知和内部状态进行独立决策,以达成其设计目标 。
这种从感知到行动的闭环,构成了所有智能体行为的基础,如下图所示:
1.1.1 传统视角下的智能体
在当前大语言模型 (LLM) 的热潮出现之前,人工智能的先驱们已经对“智能体”这一概念进行了数十年的探索与构建。这些如今我们称之为“传统智能体”的范式,经历了一条从简单到复杂、从被动反应到主动学习的清晰演进路线 。
1. 反射智能体 (Simple Reflex Agent)
- 定义:决策核心由工程师明确设计的“条件-动作”规则构成。
- 逻辑:完全依赖于当前的感知输入,不具备记忆或预测能力 。
- 案例:自动恒温器(若室温 > 设定值,则启动制冷)。
- 局限:像一种数字化的本能,无法应对需要理解上下文的复杂任务。
2. 基于模型的反射智能体 (Model-Based Reflex Agent)
-
引入概念:“状态” (State)。
-
核心能力:拥有一个内部的世界模型 (World Model),用于追踪和理解环境中那些无法被直接感知的方面。
-
解决问题:“世界现在是什么样子的?” 。
-
案例:自动驾驶汽车在隧道中行驶,即使摄像头暂时看不见前方车辆,内部模型依然维持对该车位置和速度的预估。
💡 深度解析:世界模型 (World Model)
在传统 AI 中,“世界模型”通常指显式构建的状态转移概率矩阵或物理规则库。而在现代 LLM Agent 中,这个概念变得更加隐式——LLM 的参数本身内化了关于世界运作规律的压缩知识,这是理解两种范式差异的关键点。
3. 基于目标的智能体 (Goal-Based Agent)
-
核心能力:行为不再是被动反应,而是主动地、有预见性地选择能够导向某个特定未来状态的行动。
-
解决问题:“我应该做什么才能达成目标?” 。
-
案例:GPS 导航系统(目标是到达目的地,行为是规划路径)。
-
特点:体现在对未来的考量与规划 (Planning) 上。
4. 基于效用的智能体 (Utility-Based Agent)
-
引入背景:现实目标往往不是单一的(既要到达公司,又要时间最短、且省油)。
-
核心机制:为每一个可能的世界状态赋予一个效用值 (Utility),代表满意度的高低。
-
目标:最大化期望效用。
-
解决问题:“哪种行为能为我带来最满意的结果?” 。
-
特点:学会了在相互冲突的目标之间进行权衡 (Trade-off)。
5. 学习型智能体 (Learning Agent)
- 核心思想:不依赖预设,而是通过与环境的互动自主学习。
- 实现路径:强化学习 (Reinforcement Learning, RL) 是最具代表性的路径 。
- 结构:包含“性能元件”(负责决策)和“学习元件”(负责修正策略)。
- 案例:AlphaGo 。
1.1.2 大语言模型驱动的新范式
以 GPT 为代表的大语言模型的出现,正在显著改变智能体的构建方法与能力边界。这种转变,可以从两者在核心引擎、知识来源、交互方式等多个维度的对比中清晰地看出 。
传统智能体 vs. LLM 驱动的智能体
下表展示了两种范式的核心对比 :
| 对比维度 | 传统智能体 | LLM 驱动的智能体 |
|---|---|---|
| 核心引擎 | 基于显式编程的逻辑系统 | 基于预训练模型的推理引擎 |
| 知识来源 | 工程师预定义的规则、算法、知识库 | 从海量非结构化数据中间接学习内化 |
| 处理指令 | 需结构化、精确的命令 | 可理解高层级、模糊的自然语言 |
| 工作模式 | 确定性的、可预测的 | 概率性的、生成式的 |
| 泛化/适应性 | 弱,局限于预设框架 | 强,具备强大的涌现能力和泛化能力 |
| 开发范式 | 规则设计、算法编程、知识工程 | 模型训练、提示工程、微调 |
案例解析:智能旅行助手
这种差异使得 LLM 智能体可以直接处理高层级、模糊且充满上下文信息的自然语言指令。以“规划一次厦门之旅”为例,LLM 智能体的工作方式体现了以下几点 :
-
规划与推理 (Planning & Reasoning):
智能体将高层级目标分解为逻辑子任务:[确认出行偏好] -> [查询目的地信息] -> [制定行程草案] -> [预订票务住宿]。这是一个内在的、由模型驱动的规划过程。 -
工具使用 (Tool Use):
识别信息缺口,主动调用外部工具。例如,调用天气 API,若“预报有雨”,则在规划中倾向推荐室内活动。 -
动态修正 (Dynamic Correction):
根据用户反馈(如“酒店超出预算”)动态调整后续行动,重新搜索。
💡 注解:
这里的“动态修正”是 LLM Agent 与传统 Workflow 最本质的区别之一。在传统开发中,处理“酒店超出预算”通常需要编写专门的if-else分支或异常处理逻辑;而 LLM Agent 则是通过理解自然语言反馈,利用其泛化能力重新生成满足约束(Constraint)的新计划,无需显式编程所有边界情况。

被折叠的 条评论
为什么被折叠?



