REINFORCE 算法
REINFORCE 是一种基于策略梯度的强化学习算法,直接通过采样环境中的轨迹来优化策略。它是策略梯度方法的基础实现,具有简单直观的优点。
核心思想
-
目标函数
- 最大化策略的期望回报:
- 通过优化策略参数 θ,使累积回报 J(θ) 最大化。
- 最大化策略的期望回报:
-
策略梯度定理
- 策略梯度为:
- 其中
是从时间步 t 开始的累积回报。
- 策略梯度为:
-
梯度估计
- 使用采样方法估计梯度:
- 使用采样方法估计梯度: