Policy Gradient(策略梯度)是强化学习中基于策略的优化方法,通过直接优化策略函数来最大化累积回报。与基于值的强化学习方法(如 Q-Learning 或 DQN)不同,Policy Gradient 不显式地学习状态值函数 V(s) 或动作值函数 Q(s, a),而是直接优化策略 的参数 θ。
核心思想
-
直接建模策略
- 策略
是一个概率分布函数,描述了在状态 s 下采取动作 a 的概率。
- 策略函数可以是任何可微的函数(如神经网络)。
- 策略
-
目标函数
- 目标是最大化累积期望回报 J(θ):
- 目标是最大化累积期望回报 J(θ):