一、什么是 Agent?
在人工智能领域,Agent 是一个能够感知环境、做出决策并采取行动以实现特定目标的实体。它可以是软件程序、机器人或其他形式的智能系统。简单来说,Agent 就像一个“智能个体”,通过与环境的交互完成任务。
1.1 Agent 的核心组成
一个 Agent 通常由以下几个部分构成:
- 感知(Perception):Agent 通过传感器或输入接口获取环境信息。例如,自动驾驶汽车的 Agent 通过摄像头、雷达感知道路情况。
- 决策(Decision-making):Agent 根据感知信息和目标,决定采取何种行动,通常涉及算法或模型,如深度神经网络或强化学习策略。
- 行动(Action):Agent 通过执行器或输出接口影响环境。例如,自动驾驶汽车可能选择加速、刹车或转向。
- 目标(Goal):Agent 的行为旨在实现特定目标,如最大化奖励、最小化成本或完成任务。
1.2 Agent 与深度学习的联系
深度学习模型(如 CNN、RNN、Transformer)常作为 Agent 的感知或决策模块。例如:
- 在图像识别任务中,卷积神经网络(CNN)帮助 Agent 理解环境中的物体。
- 在自然语言处理任务中,Transformer 模型帮助 Agent 理解语言指令。
但 Agent 比单纯的深度学习模型更复杂,它不仅处理输入(感知),还需根据输入选择行动,并通过行动影响环境。这种“交互性”是 Agent 的核心。
1.3 Agent 的分类
根据复杂程度和功能,Agent 可分为以下几类(从简单到复杂):
- 简单反射式 Agent:根据当前感知直接采取固定行动,类似“如果…那么…”规则。例如,恒温器检测到温度过低就开启加热。
- 基于模型的反射式 Agent:维护一个内部模型记录环境状态(如历史信息),从而做出更智能的决策。
- 基于目标的 Agent:明确目标并根据目标选择行动。例如,导航机器人选择最短路径到达目的地。
- 基于效用的 Agent:评估不同行动的“效用”(收益或成本),选择最优行动。
- 学习型 Agent:通过与环境交互不断学习和改进行为,这是强化学习的核心领域,也是现代 AI Agent 的典型类型。
二、Agent 的运行环境
要理解 Agent,需先了解其所处的 环境,因为 Agent 的行为通过与环境的交互定义。
2.1 环境的特性
环境可从以下维度描述:
- 完全可观察 vs 部分可观察:
- 完全可观察:Agent 能获取环境所有信息,如国际象棋游戏的棋盘状态。
- 部分可观察:Agent 仅获取部分信息,如扑克牌游戏中看不到对手的牌。
- 确定性 vs 随机性:
- 确定性:环境行为完全可预测,如下棋时移动棋子的结果。
- 随机性:环境存在不确定性,如自动驾驶中行人可能突然出现。
- 离散 vs 连续:
- 离散:状态和行动有限,如棋盘游戏。
- 连续:状态和行动连续,如控制机器人手臂的角度。
- 静态 vs 动态:
- 静态:环境在 Agent 思考时不变,如迷宫导航。
- 动态:环境会变化,如实时交通状况。
- 单智能体 vs 多智能体:
- 单智能体:只有一个 Agent,如单机游戏。
- 多智能体:多个 Agent 交互,如多人在线游戏或协作机器人。
这些特性决定了 Agent 设计的复杂性。例如,在完全可观察、确定性、离散、静态环境中运行的 Agent(如下棋)远比在部分可观察、随机、连续、动态环境中运行的 Agent(如自动驾驶)简单。
2.2 Agent 与环境的交互
Agent 与环境的交互可用循环描述:
- Agent 感知环境状态(State)。
- Agent 根据状态选择行动(Action)。
- 行动改变环境,产生新状态。
- 环境可能给 Agent 反馈(Reward),表示行动好坏。
- 返回步骤 1,循环继续。
此循环是强化学习的核心框架,但即使不涉及强化学习,任何 Agent 均遵循类似交互模式。
三、Agent 的决策机制
Agent 的核心任务是根据环境状态选择合适行动,需依赖 决策机制,可以是规则、模型、优化算法或学习算法。以下是几种常见决策机制:
3.1 基于规则的决策
最简单的 Agent 使用预定义规则决策,例如:
- 若温度低于 18∘C18^\circ\text{C}18∘C,则开启加热器。
- 若前方有障碍物,则刹车。
此方法适合简单、确定性环境,但无法应对复杂或不确定情况。
3.2 基于搜索的决策
对于有明确目标的 Agent,可使用搜索算法规划行动,例如:
- A 算法*:在导航任务中找到起点到终点的最短路径。
- 蒙特卡洛树搜索(MCTS):在游戏(如围棋)中模拟多种行动序列,选择最优行动。
搜索算法需明确规则和目标,适合离散、确定性环境。
3.3 基于模型的决策
一些 Agent 维护内部模型模拟环境行为。例如,自动驾驶汽车可能有一个“世界模型”,预测其他车辆和行人的运动轨迹。基于此模型,Agent 可通过优化算法(如动态规划)选择最佳行动。
3.4 基于学习的决策
学习型 Agent 是现代 AI 核心,尤其在复杂环境中。它们通过与环境交互学习决策。以下是两种主要学习方式:
- 监督学习:
- 若有大量标注数据(状态-行动对),可用深度学习模型训练 Agent。例如,训练神经网络预测特定棋局中的最佳行动。
- 局限性:需大量标注数据,难以应对动态环境。
- 强化学习:
- 强化学习(Reinforcement Learning, RL)是学习型 Agent 的核心方法,适合长期规划和动态交互场景。它通过试错学习,而无需标注数据。
四、强化学习与 Agent
强化学习(RL)是现代 Agent 的核心技术,以下从零开始详细讲解。
4.1 强化学习的基本概念
强化学习的目标是让 Agent 通过与环境交互,最大化长期累积奖励(Cumulative Reward)。核心概念包括:
- 状态(State, S):描述环境当前情况,如下棋中的棋盘布局。
- 行动(Action, A):Agent 可采取的行为,如移动棋子。
- 奖励(Reward, R):环境对行动的反馈,衡量行动好坏,如赢棋得 +1+1+1,输棋得 −1-1−1,平局得 000。
- 策略(Policy, π):Agent 的决策规则,定义在状态 sss 下选择行动 aaa 的概率,表示为 π(a∣s)\pi(a|s)π(a∣s)。
- 价值函数(Value Function):评估状态或行动的长期收益,分为:
- 状态价值函数 V(s)V(s)V(s):从状态 sss 开始,预期累积奖励。
- 动作价值函数 Q(s,a)Q(s, a)</

最低0.47元/天 解锁文章
1704

被折叠的 条评论
为什么被折叠?



