强化学习中的Agent智能体

原创

已于 2025-04-26 00:09:16 修改 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-04-25 16:58:36 首次发布

一、什么是 Agent？

在人工智能领域，Agent 是一个能够感知环境、做出决策并采取行动以实现特定目标的实体。它可以是软件程序、机器人或其他形式的智能系统。简单来说，Agent 就像一个“智能个体”，通过与环境的交互完成任务。

一个 Agent 通常由以下几个部分构成：

深度学习模型（如 CNN、RNN、Transformer）常作为 Agent 的感知或决策模块。例如：

在图像识别任务中，卷积神经网络（CNN）帮助 Agent 理解环境中的物体。
在自然语言处理任务中，Transformer 模型帮助 Agent 理解语言指令。
但 Agent 比单纯的深度学习模型更复杂，它不仅处理输入（感知），还需根据输入选择行动，并通过行动影响环境。这种“交互性”是 Agent 的核心。

根据复杂程度和功能，Agent 可分为以下几类（从简单到复杂）：

要理解 Agent，需先了解其所处的环境，因为 Agent 的行为通过与环境的交互定义。

环境可从以下维度描述：

完全可观察 vs 部分可观察：
- 完全可观察：Agent 能获取环境所有信息，如国际象棋游戏的棋盘状态。
- 部分可观察：Agent 仅获取部分信息，如扑克牌游戏中看不到对手的牌。
确定性 vs 随机性：
- 确定性：环境行为完全可预测，如下棋时移动棋子的结果。
- 随机性：环境存在不确定性，如自动驾驶中行人可能突然出现。
离散 vs 连续：
- 离散：状态和行动有限，如棋盘游戏。
- 连续：状态和行动连续，如控制机器人手臂的角度。
静态 vs 动态：
- 静态：环境在 Agent 思考时不变，如迷宫导航。
- 动态：环境会变化，如实时交通状况。
单智能体 vs 多智能体：
- 单智能体：只有一个 Agent，如单机游戏。
- 多智能体：多个 Agent 交互，如多人在线游戏或协作机器人。

这些特性决定了 Agent 设计的复杂性。例如，在完全可观察、确定性、离散、静态环境中运行的 Agent（如下棋）远比在部分可观察、随机、连续、动态环境中运行的 Agent（如自动驾驶）简单。

Agent 与环境的交互可用循环描述：

此循环是强化学习的核心框架，但即使不涉及强化学习，任何 Agent 均遵循类似交互模式。

Agent 的核心任务是根据环境状态选择合适行动，需依赖 决策机制，可以是规则、模型、优化算法或学习算法。以下是几种常见决策机制：

最简单的 Agent 使用预定义规则决策，例如：

此方法适合简单、确定性环境，但无法应对复杂或不确定情况。

对于有明确目标的 Agent，可使用搜索算法规划行动，例如：

搜索算法需明确规则和目标，适合离散、确定性环境。

一些 Agent 维护内部模型模拟环境行为。例如，自动驾驶汽车可能有一个“世界模型”，预测其他车辆和行人的运动轨迹。基于此模型，Agent 可通过优化算法（如动态规划）选择最佳行动。

学习型 Agent 是现代 AI 核心，尤其在复杂环境中。它们通过与环境交互学习决策。以下是两种主要学习方式：

监督学习：
- 若有大量标注数据（状态-行动对），可用深度学习模型训练 Agent。例如，训练神经网络预测特定棋局中的最佳行动。
- 局限性：需大量标注数据，难以应对动态环境。
强化学习：
- 强化学习（Reinforcement Learning, RL）是学习型 Agent 的核心方法，适合长期规划和动态交互场景。它通过试错学习，而无需标注数据。

强化学习（RL）是现代 Agent 的核心技术，以下从零开始详细讲解。

强化学习的目标是让 Agent 通过与环境交互，最大化长期累积奖励（Cumulative Reward）。核心概念包括：

状态（State, S）：描述环境当前情况，如下棋中的棋盘布局。
行动（Action, A）：Agent 可采取的行为，如移动棋子。
奖励（Reward, R）：环境对行动的反馈，衡量行动好坏，如赢棋得 $+ 1$ ，输棋得 $- 1$ ，平局得 $0$ 。
策略（Policy, π）：Agent 的决策规则，定义在状态 $s$ 下选择行动 $a$ 的概率，表示为 $π(a∣s)\pi(a|s)$ 。
价值函数（Value Function）：评估状态或行动的长期收益，分为：
- 状态价值函数 $V (s)$ ：从状态 $s$ 开始，预期累积奖励。
- 动作价值函数