初识智能体 Part 1：从恒温器到 LLM 的演进-优快云博客

作为本系列的开篇，我们将回归原点，剖析智能体（Agent）的本质定义，回顾其从“传统规则”到“大模型驱动”的演进脉络，并揭示新旧范式背后的核心差异。

1.1 智能体？

在探索任何一个复杂概念时，我们最好从一个简洁的定义开始。在人工智能领域，智能体被定义为任何能够通过传感器 (Sensors) 感知其所处环境 (Environment)，并自主地通过执行器 (Actuators) 采取行动 (Action) 以达成特定目标的实体。

智能体的四大基本要素

这个定义包含了智能体存在的四个基本要素：

环境 (Environment)：智能体所处的外部世界。
例：自动驾驶汽车的环境是动态变化的道路交通；交易算法的环境是瞬息万变的金融市场。
传感器 (Sensors)：智能体并非与环境隔离，它通过传感器持续地感知环境状态。
例：摄像头、麦克风、雷达或各类应用程序编程接口 (API) 返回的数据流。
执行器 (Actuators)：智能体通过执行器来改变环境的状态。
*例：物理设备（如机械臂、方向盘）或虚拟工具（如执行一段代码、调用一个服务）。
行动 (Action)：基于获取的信息，智能体采取的对环境施加影响的具体行为。

然而，真正赋予智能体“智能”的，是其自主性 (Autonomy)。智能体并非只是被动响应外部刺激或严格执行预设指令的程序，它能够基于其感知和内部状态进行独立决策，以达成其设计目标。

这种从感知到行动的闭环，构成了所有智能体行为的基础，如下图所示：

1.1.1 传统视角下的智能体

在当前大语言模型 (LLM) 的热潮出现之前，人工智能的先驱们已经对“智能体”这一概念进行了数十年的探索与构建。这些如今我们称之为“传统智能体”的范式，经历了一条从简单到复杂、从被动反应到主动学习的清晰演进路线。

1. 反射智能体 (Simple Reflex Agent)

定义：决策核心由工程师明确设计的“条件-动作”规则构成。
逻辑：完全依赖于当前的感知输入，不具备记忆或预测能力。
案例：自动恒温器（若室温 > 设定值，则启动制冷）。
局限：像一种数字化的本能，无法应对需要理解上下文的复杂任务。

2. 基于模型的反射智能体 (Model-Based Reflex Agent)

引入概念：“状态” (State)。
核心能力：拥有一个内部的世界模型 (World Model)，用于追踪和理解环境中那些无法被直接感知的方面。
解决问题：“世界现在是什么样子的？” 。
案例：自动驾驶汽车在隧道中行驶，即使摄像头暂时看不见前方车辆，内部模型依然维持对该车位置和速度的预估。

💡 深度解析：世界模型 (World Model)
在传统 AI 中，“世界模型”通常指显式构建的状态转移概率矩阵或物理规则库。而在现代 LLM Agent 中，这个概念变得更加隐式——LLM 的参数本身内化了关于世界运作规律的压缩知识，这是理解两种范式差异的关键点。

3. 基于目标的智能体 (Goal-Based Agent)

核心能力：行为不再是被动反应，而是主动地、有预见性地选择能够导向某个特定未来状态的行动。
解决问题：“我应该做什么才能达成目标？” 。
案例：GPS 导航系统（目标是到达目的地，行为是规划路径）。
特点：体现在对未来的考量与规划 (Planning) 上。

4. 基于效用的智能体 (Utility-Based Agent)

引入背景：现实目标往往不是单一的（既要到达公司，又要时间最短、且省油）。
核心机制：为每一个可能的世界状态赋予一个效用值 (Utility)，代表满意度的高低。
目标：最大化期望效用。
解决问题：“哪种行为能为我带来最满意的结果？” 。
特点：学会了在相互冲突的目标之间进行权衡 (Trade-off)。

5. 学习型智能体 (Learning Agent)

核心思想：不依赖预设，而是通过与环境的互动自主学习。
实现路径：强化学习 (Reinforcement Learning, RL) 是最具代表性的路径。
结构：包含“性能元件”（负责决策）和“学习元件”（负责修正策略）。
案例：AlphaGo 。

1.1.2 大语言模型驱动的新范式

以 GPT 为代表的大语言模型的出现，正在显著改变智能体的构建方法与能力边界。这种转变，可以从两者在核心引擎、知识来源、交互方式等多个维度的对比中清晰地看出。

传统智能体 vs. LLM 驱动的智能体

下表展示了两种范式的核心对比：

对比维度	传统智能体	LLM 驱动的智能体
核心引擎	基于显式编程的逻辑系统	基于预训练模型的推理引擎
知识来源	工程师预定义的规则、算法、知识库	从海量非结构化数据中间接学习内化
处理指令	需结构化、精确的命令	可理解高层级、模糊的自然语言
工作模式	确定性的、可预测的	概率性的、生成式的
泛化/适应性	弱，局限于预设框架	强，具备强大的涌现能力和泛化能力
开发范式	规则设计、算法编程、知识工程	模型训练、提示工程、微调

案例解析：智能旅行助手

这种差异使得 LLM 智能体可以直接处理高层级、模糊且充满上下文信息的自然语言指令。以“规划一次厦门之旅”为例，LLM 智能体的工作方式体现了以下几点：

规划与推理 (Planning & Reasoning)：
智能体将高层级目标分解为逻辑子任务：[确认出行偏好] -> [查询目的地信息] -> [制定行程草案] -> [预订票务住宿]。这是一个内在的、由模型驱动的规划过程。
工具使用 (Tool Use)：
识别信息缺口，主动调用外部工具。例如，调用天气 API，若“预报有雨”，则在规划中倾向推荐室内活动。
动态修正 (Dynamic Correction)：
根据用户反馈（如“酒店超出预算”）动态调整后续行动，重新搜索。

💡 注解：
这里的“动态修正”是 LLM Agent 与传统 Workflow 最本质的区别之一。在传统开发中，处理“酒店超出预算”通常需要编写专门的 if-else 分支或异常处理逻辑；而 LLM Agent 则是通过理解自然语言反馈，利用其泛化能力重新生成满足约束（Constraint）的新计划，无需显式编程所有边界情况。