【强化学习】强化学习数学基础：策略梯度方法(Policy Function Approximation)

镰刀韭菜

已于 2023-03-15 20:56:02 修改

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：强化学习策略梯度方法 REINFORCE 梯度上升算法 Average value

于 2023-03-13 23:30:00 首次发布

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/129452000

强化学习专栏收录该内容

11 篇文章

订阅专栏

本文介绍了策略梯度方法，将策略从表格形式转换为参数化的函数表示，如神经网络。文章讨论了如何定义最优策略，以及如何通过梯度上升算法（如REINFORCE）来优化策略。重点讲述了平均状态价值和平均即时奖励作为指标，并解析了它们的梯度计算。最后，提到了REINFORCE算法的实现和其在探索与利用之间的平衡作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从本文开始，将从value-based methods转向到policy-based methods，从value function approximation到policy function approximation。

Basic idea of policy gradient

到目前，我们的policies都是用tables表示的。如下是所有state的action probabilities，存储在一个table $\pi(a|s)$ ，表格中的每个实体由一个state和一个action表示。
tables
我们可以直接访问或改变表格中的一个值。

现在，我们可以把表格改成函数。policies用参数化的函数表示。 $\pi(a|s,\theta)$ 其中 $\theta\in \mathbb{R}^m$ 是一个参数向量。

例如，这个函数可以是一个神经网络，它的输入是 $s$ ，输出是采取每个action的概率，参数是 $\theta$ 。
优势：当state space比较大时，表格化的表示是低效的，尤其是针对存储和泛化能力。
函数形式的表示有时也写为 $\pi(a,s,\theta), \pi_\theta(a|s), \pi_\theta(a,s)$

表格形式和函数形式表示的区别：

第一，如何定义最优策略？
- 当使用表格表示时，一个策略 $\pi$ 是最优的，如果它能够使得每个state value最大化。
- 当使用函数表示时，一个策略 $\pi$ 是最优的，如果它能够使得某个scalar metric最大化。
第二，如何获取一个action的概率?
- 当使用表格表示时，在状态 $s$ 采取 $a$ 的概率可以直接通过查表的形式得到
- 当使用函数表示时，我们需要在给定函数结构和参数的条件下计算 $\pi(a|s, \theta)$ 的值
第三，如何更新策略？
- 当使用表格表示时，可以直接在表格中更新策略 $\pi$
- 当使用函数表示时，可以通过改变参数 $\theta$ 的方式更新策略 $\pi$

Policy gradient的基本思路：

第一，需要有一个目标函数（metrics or objective functions）去定义最优策略是什么， $J(\theta)$ 定义最优策略。
第二，基于梯度的方法（gradient-based optimization algorithm）去寻找最优策略: $\theta_{t+1}=\theta_t+\alpha \nabla_\theta J(\theta_t)$

尽管思路非常简单，但是当我们回答下面问题的时候，会有一些复杂的地方：

第一，怎么选取目标函数？
第二，怎么求解目标函数对应的gradients？

Metrics to define optimal policies

有两大类的metrics：
第一大类是the average state value，或者简单地称为average value。具体地，这个metric定义如下 $\bar{v}_\pi=\sum_{s\in \mathcal{S}}d(s)v_\pi(s)$

其中 $\bar{v}_\pi$ 是state values的加权平均
$d (s) > 0$ 是对于状态 $s$ 的权重
因为 $\sum_{s\in \mathcal{S}} d(s)=1$ ，我们可以将 $d (s)$ 解释为一个概率分布。然后，这个metric可以被写为 $\bar{v}_\pi=\mathbb{E}[v_\pi (S)]$ ，其中 $S\sim d$ 。

Vector-product(向量内积)的形式： $\bar{v}_\pi = \sum_{s\in \mathcal{S}}d(s)v_\pi(s)=d^Tv_\pi$ 其中 $v_\pi=[...,v_\pi (s),...]^T\in \mathbb{R}^{|\mathcal{S} |}$ $d=[...,d(s),...]^T\in \mathbb{R}^{|\mathcal{S} |}$
这种形式对于后面分析它的梯度是非常有帮助的。

如何选择分布 $d$ ？这里有两种情况：
第一种情况是 $d$ 和策略 $\pi$ 没什么关系。

这种情况相对简单，因为metric的gradient是容易计算的
这种情况下，将 $d$ 写为 $d_0$ ， $\bar{v}_\pi$ 写为 $\bar{v}_\pi^0$
如何选择 $d_0$ ？
- 一个简单的方式是平等地对待所有的states，即选择 $d_0(s)=1/|\mathcal{S}|$
- 另一个重要的情况是我们只对一个特定的state $s_0$ 感兴趣。例如，episodes在某些任务中总是从相同的state $s_0$ 开始，然后，我们仅仅关注从 $s_0$ 开始的long-term return。在这种情况下 $d_0(s_0)=1, d_0(s\ne s_0)=0$

第二种情况是 $d$ 依赖于策略 $\pi$ 。

这是一种常见的选择，选择 $d$ 为 $d_\pi(s)$ ，即stationary distribution under $\pi$ 。
- $d_pi$ 的一个基本性质是它满足 $d_\pi^TP_\pi=d_\pi^T$ ，其中 $P_\Pi$ 是state transition probability matrix。
- 选择 $d_\pi$ 的解释：
  - 如果一个state在long run中是frequently visited，它是更重要的，应带给与更多权重
  - 如果一个state很少被visited，相应的它的权重自然少一些。

第二大类是average one-step reward，或者简称为average reward.具体地，the metrics是 $\bar{r}_\pi\doteq \sum _{s\in \mathcal{S} }d_\pi(s)r_\pi(s)=\mathbb{E}[r_\pi(S)]$ 其中 $S\sim d_\pi$ 。这里 $r_\pi\doteq \sum _{a\in \mathcal{A} }\pi(a|s)r(s,a)$ 是the average of the one-step immediate reward that can be obtained starting from state $s$ ，并且 $r(s,a)=\mathbb{E}[R|s,a]=\sum _r rp(r|s,a)$

权重 $d_\pi$ 是stationary distribution
正如它的名称所暗示的， $\bar{r}_\pi$ 是simply a weighted average of the one-step immediate rewards。

上面average reward的第二种形式：

假设一个agent沿着一个给定的policy，生成一个trajectory，它的rewards是 $R_{t+1}, R_{t+2},...)$
沿着trajectory的average single-step reward是

其中 $s_0$ 是the starting state of the trajectory。
上面的形式还可以继续改写为：

注意：
- 当n趋近于无穷的时候，starting state $s_0$ 已经不重要了
- 这两个关于 $\bar{r}_\pi$ 的等式是相等的。

对上面两个metrics强调几点：

这些metrics都是策略 $\pi$ 的函数
- 因为策略 $\pi$ 是由 $\theta$ 进行参数化的，因此这些metric是 $\theta$ 的函数
- 换句话说，不同的 $\theta$ 可以生成不同的metric values
- 因此，我们可以搜索最优的 $\theta$ 进而最大化这些metrics
这些metrics是具有复杂性的，分为两种情况，第一种是discounted case，其中 $\gamma \in [0,1)$ ；另一种情况是undiscounted case，其中 $\gamma=1$ 。
- 这里我们仅仅考虑the discounted case。
直观上, $\bar{r}_\pi$ 是short-sighted因为它很少考虑the immediate rewards，而 $\bar{v}_\pi$ 考虑the total reward overall steps。
- 然而，这两个metrics是等价的，具体地，在discounted case，当 $\gamma <1$ ，有 $\bar{r}_\pi=(1-\gamma)\bar{v}_\pi$

做个练习：
exercise
回答：首先，分析和理解这样一个metric。

它从 $S_0\sim d$ 开始，然后 $A_0, R_1, S_1, A_1, R_2, S_2,.....$
$A_t\sim \pi (S_t)$ 并且 $R_{t+1},S_{t+1}\sim p(R_{t+1}|S_t, A_t), p(S_{t+1}|S_t, A_t)$
然后，我们知道这个metric和average value相同，因为

Gradients of metrics

给定一个metric，然后

推导它的梯度
然后，应用gradient-based methods去优化这个metric。

gradient的计算是policy gradient methods中最复杂的计算部分!

首先，我们需要区分不同的metrics $\bar{v}_\pi, \bar{r}_\pi, \bar{v}_\pi^0$
第二，我们需要区分the discounted和undiscounted cases

gradients的计算结果： $\nabla _\theta J(\theta )=\sum _{s\in \mathcal{S} }\eta (s)\sum _{a\in \mathcal{A} }\nabla _\theta \pi(a|s, \theta )q_\pi(s,a)$ 其中

$J(\theta )$ 可以是 $\bar{v}_\pi, \bar{r}_\pi, \bar{v}_\pi^0$
$==$ 可以表示严格相等，近似或者成比例等于
$\eta$ 是一个在states下的分布或者权重

怎么得到这个式子呢，一些specific results:

对于上面给出的gradient进行分析。gradient可以写成一个这样紧凑且有用的形式：
a compact and useful form
其中 $S\sim \eta$ 且 $A\sim \pi(A|S, \theta)$ 。

为什么这样的表达式是useful?因为我们可以使用采样去近似这个梯度！ $\nabla _\theta J\approx \nabla _\theta \ln \pi (a|s, \theta )q_\pi (s,a)$

如何得到这样的式子？上面式子中的 $\ln \pi$ 中的ln是自然对数。容易得到： $\nabla _\theta \ln \pi(a|s,\theta)=\frac{\nabla_ \theta \pi (a|s,\theta)}{\pi(a|s, \theta)}$ 因此 $\nabla _\theta \pi(a|s,\theta)=\pi(a|s, \theta) \nabla_ \theta \ln\pi (a|s,\theta)$ 然后，有
推导过程

一些补充说明：因为我们需要计算 $\ln \pi(a|s,\theta)$ ，我们必须确保对于所有 $s,a,\theta$ ， $\pi(a|s, \theta)>0$

通过使用softmax function来满足这一要求，它能将 $(-\infty. +\infty)$ 的向量实体归一化到 $(0, 1)$
例如，对于任意向量 $x=[x_1,...,x_n]^T$ ， $z_i=\frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}}$ 其中 $z_i\in (0,1)$ ，并且 $\sum_{i=1}^n z_i=1$ 。
然后，有了softmax函数，就可以写出policy function，如下： $\pi(a|s,\theta)=\frac{e^{h(s,a,\theta)}} {\sum_{a' \in \mathcal{A}} e^{h(s,a',\theta)}}$ 其中 $h(s,a,\theta)$ 是另一个函数

需要强调的几点：
remarks

Gradient-ascent algorithm (REINFORCE)

现在，给出第一个policy gradient algorithm以发现最优策略!

gradient-ascent算法最大化 $J(\theta)$ ：
因为上面式子有一个E，涉及分布情况，是不能用的，所以使用一个stochastic梯度代替真实的梯度：

实际上，这里的式子也是不能用的，因为这里有一个 $q_\pi$ ，是策略 $\pi$ 所对应的真实的action value。那怎么办呢？
进一步地，因为 $q_\pi$ 是不知道的，所以用一个方法来近似或对 $q_\pi$ 进行采样，把 $q_\pi$ 换成 $q_t$ ：

这里有不同的方法去近似 $q_\pi(s_t, a_t)$
- 第一种方法，基于Monte-Carlo方法：REINFORCE
- 其他方法，例如TD方法，这就引出了Actor-Critic方法

补充几个非常重要的说明：

如何采样？
- 如何采样 $S$ 呢？
  - $S\sim d$ ，其中the distribution $d$ 是一个基于 $\pi$ 的long-run behavior
- 如何采样 $A$ 呢？
  - $A\sim \pi(A|S, \theta)$ ，因此在 $s_t$ ,应该根据当前的 $\pi(\theta_t)$ ，采样 $a_t$
  - 因此，这个policy gradient method是on-policy。
怎么去理解这个算法？
因为 $\nabla _\theta \ln \pi(a_t|s_t,\theta_t)=\frac{\nabla_ \theta \pi (a_t|s_t,\theta_t)}{\pi(a_t|s_t, \theta_t)}$ 算法重写为：

因此，算法的重要表达形式为： $\theta_{t+1}=\theta_t+\alpha \beta_t \nabla_\theta \pi(a_t|s_t, \theta_t)$
这个式子是一个最大化 $\pi(a_t|s_t,\theta)$ 的梯度上升算法：

直观上：当 $\alpha\beta_t$ 是足够小的时候
- 如果 $\beta_t >0$ ，选择 $s_t,a_t)$ 的概率在增加： $\pi(a_t|s_t,\theta_{t+1})>\pi(a_t|s_t, \theta_t)$ $\beta_t$ 越大，增加就越多。
- 如果 $\beta_t <0$ ，那么 $\pi(a_t|s_t,\theta_{t+1})<\pi(a_t|s_t, \theta_t)$
  数学上，当 $\theta_{t+1}-\theta_t$ 足够小的时候，有
  
  当 $\theta_{t+1}-\theta_t$ 趋近于0的时候，近似符号就变为等号，当它们之间的差别越大的时候，这种近似就变的越来越不精确。将上面的梯度上升算法代入，得到：

回到刚才的结论，也就是当 $\beta_t$ 为正或者为负的时候会出现一些结果：
beta t
这里的 $\beta_t$ 能够很好地平衡exploration和exploitation。

首先， $\beta_t$ 的分子是 $q_t(s_t,a_t)$ ，因此它正比于 $q_t(s_t,a_t)$
- 如果 $q_t(s_t,a_t)$ 较大，则 $\beta_t$ 也是较大的
- 因此，该算法倾向于enhance actions with greater values。
第二， $\beta_t$ 是反比于 $\pi(a_t|s_t, \theta_t)$
- 如果 $\pi(a_t|s_t, \theta_t)$ 较小，则 $\beta_t$ 也是较小的
- 因此，该算法试图explore actions that have low probabilities。