Actor-Critic 是一种结合了策略优化(Policy Gradient)和价值函数近似的强化学习算法。它通过同时训练一个 Actor(策略网络) 和一个 Critic(价值网络) 来改进学习效率和稳定性。
核心思想
-
Actor:
- 负责生成动作,直接表示策略
,即在给定状态 s 下选择动作 a 的概率分布。
- Actor 的目标是通过策略梯度法最大化累计回报。
- 负责生成动作,直接表示策略
-
Critic:
- 负责评估 Actor 的动作质量,使用状态值函数
或动作-状态值函数
。
- Critic 提供 Actor 的优化方向。
- 负责评估 Actor 的动作质量,使用状态值函数
-
协作:
- Actor 使用 Critic 提供的值函数或优势函数(Advantage Function)来改进策略。
- Critic 通过 Actor 的采样结果更新值函数。
算法流程
1. 初始化
- 初始化 Actor 的策略参数
。
- 初始化 Critic 的价值参数