强化学习（RLAI）读书笔记第十三章策略梯度方法（Policy Gradient Methods）

最新推荐文章于 2025-05-02 22:45:48 发布

原创

最新推荐文章于 2025-05-02 22:45:48 发布 · 2.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#RLAI

本书章节介绍了策略梯度方法，包括策略近似及其优势、策略梯度定理、REINFORCE算法及其改进，以及Actor-Critic方法。强调了策略参数化在连续动作空间中的应用，展示了直接学习策略参数的好处，如支持探索和处理连续动作。通过添加基线来降低方差，以及Actor-Critic方法在连续问题中的应用，展示了强化学习策略梯度方法的理论基础和实践价值。

强化学习（RLAI）读书笔记第十三章策略梯度方法（Policy Gradient Methods）

目前为止本书讲述的方法基本都是动作值函数的方法。这一章介绍一个学习参数化策略的方法，这个方法中不需要考虑值函数就可以得到策略。在学习策略参数的时候有可能还会用到值函数，但是选择动作的时候不需要。使用了一个 $\theta\in\mathbb R^{d'}$ 作为策略的参数向量，然后用 $\pi(a|s,\theta)=Pr\{A_{t}=a|S_{t}=s,\theta_{t}=\theta\}$ 来表示时间t时选择动作a时的概率。这一章考虑一个使用 $J(\theta)$ 表示的度量函数的梯度来学习策略参数的算法。

这个方法是来最大化 $J(\theta)$ 的，因此参数的更新近似对于J的梯度上升：
$\theta_{t+1} = \theta_{t}+\alpha\widehat{\nabla J(\theta_{t})}$ ,
对于所有满足此类更新形式的算法，不论是否计算值函数都叫做policy gradient methods。那些同时计算策略函数和值函数的方法又叫做actor-critic算法，actor表示学好的策略，而critic表示学好的值函数。