强化学习数学基础1---Policy Gradient

最新推荐文章于 2025-07-01 19:19:43 发布

原创最新推荐文章于 2025-07-01 19:19:43 发布 · 670 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #数学基础 #Policy Gradient

机器学习数学基础专栏收录该内容

9 篇文章

订阅专栏

本文介绍了强化学习的基础数学概念，包括Actor网络、评估函数及其优化过程。详细解释了如何使用神经网络作为策略模型，并通过梯度上升法更新参数以最大化期望奖励。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习基础数学基础1

这篇笔记由李宏毅老师的强化学习公开课整理而来

强化学习的基本步骤：

Step 1：定义一个Neural Network作为一个Actor
Step 2：定义评估函数，有些评估函数可能也是一个策略网络
Step 3：选择或者训练出一个最佳的函数作为Actor和评估函数

强化的学习的Actor是一个Neural Network，把环境作为输入，输出的是当前环境下所有选择的概率值。

假设 $πθ(S)\pi_{\theta}(S)$ 表示一个Actor，其中 $S$ 是输入，即当前的环境， $θ\theta$ 表示神经网络的参数。那么，从当前状态开始，每一次Actor都会采取一个行动 $a_i$ ，使得局面到达 $S_{i+1}$ ，同时获取的奖励是 $r_i$ 。

那么总的奖励：
$total\ reward: \ R_{\theta}=\sum_{t=1}^{T}r_{t} \tag{1}$
注意， $RθR_{\theta}$ 每次可能都是不同的，原因是：

选择的过程本身就是随机的。因为Actor的输出是每个选择的一个概率
游戏本身具有随机性，我们不知道环境可能会发生的变化

我们把一次完整的过程称为一个eposide。

令符号
$\tau=\{s_0,(s_1,a_1,r_1),(s_2,t_2,r_2),\cdots,(s_t,a_t,r_t)\}$
表示一个完整的游戏过程。上述的意思是，从初始状态 $s_0$ 采取行动 $a_1$ ，然后到达状态 $s_1$ ，获得的奖励是 $r_1$ ，一次类推，直到最终状态 $s_t$ 。总的奖励就是累加，见公式 $(1)$ 。

我们知道，从某个给定的局面开始到游戏结束，每次的游戏过程都基本都是不一样的，那么有某个游戏过程 $τ\tau$ ，则该过程出现的概率是 $P(τ∣θ)P(\tau | \theta)$ 。所以，如果输入一个局面 $S$ ，它的期望获得的奖励是：
$\bar{R}_{\theta} = \sum_{\tau}R(\tau)P(\tau|\theta)\approx\frac{1}{N}\sum_{i=1}^{N}R(\tau^{(i)}) \tag{2}$
其中 $N$ 表示进行足够多的模拟次数。

因为上述公式中，一般来说，可以认为所有的游戏状态是无穷多个，只能通过足够多的模拟次数来近似求解。

通过Gradient Descent进行Actor的参数优化。优化的方式为：
$\theta^{*}=\mathop{argmax}\limits_{\theta}\bar{R}_{\theta}$
那么初始化随机所有的参数为 $θ(0)\theta^{(0)}$ ，每次进行如下的迭代：
$\theta^{(i)}=\theta^{(i-1)}+\eta \nabla \bar{R}_{\theta^{(i-1)}}$
其中， $η\eta$ 是学习速率。对公式中的 $∇Rˉθ(i−1)\nabla \bar{R}_{\theta^{(i-1)}}$ 进行展开，得到：
$\nabla \bar{R}_{\theta} =\nabla\sum_{\tau}R(\tau) P(\tau|\theta)=\sum_{\tau}R(\tau)\nabla P(\tau|\theta) \tag{3}$
注意， $R(τ)R(\tau)$ 这个是固定的，与Actor的参数 $θ\theta$ 无关。

因为有
$\frac{d(\log f(x))}{dx}=\frac{1}{f(x)}\frac{df(x)}{dx}$
那么， $(3)$ 公式可以写成
$\nabla{\bar{R}_{\theta}}=\sum_{\tau} R(\tau)P(\tau|\theta)\frac{\nabla P(\tau|\theta)}{P(\tau|\theta)} = \sum_{\tau}R(\tau)P(\tau|\theta)\nabla\log P(\tau|\theta) \approx\frac{1}{N}\sum_{i=1}^{N}R(\tau^{(i)})\nabla\log P(\tau^{(i)}|\theta) \tag{4}$
在根据概率论的乘法公式和 $τ\tau$ 过程的意义，又可以得出
$P(\tau|\theta)=P(s_1)P(a_1|s_1,\theta)P(r_1,s_2|s_1,a_1)P(a_2|s_2,a_1)P(r_2,s_3|s_2,a_2)\cdots$
那么上式可以写成
$P(\tau|\theta)=P(s_1)\prod_{t=1}^{T}P(a_t|s_t,\theta)P(r_t,s_{t+1}|s_{t},a_t) \tag{5}$
符号说明：

$P(at∣st,θ)P(a_t|s_t,\theta)$ ：在 $θ\theta$ 参数、 $s_t$ 环境下，采取 $a_t$ 的概率。这一点取决于Actor。
$P(r_t, s_{t+1}|s_{t},a_t)$ ： $s_t$ 环境下采取行动 $a_t$ 获得奖励 $r_t$ 的条件下，到达环境 $s_{t+1}$ 的概率。这一点和Actor无关，只和环境有关系，所以对Actor参数 $θ\theta$ 微分的时候结果是0 ！！！

又因为
$\log P(\tau|\theta)=\log P(s_1)+\sum_{t=1}^{T}\left[\log P(a_t|s_t, \theta)+\log P(r_t,s_{t+1}|s_{t},a_t) \right]$
所以有
$\nabla \log{P(\tau|\theta)}=\sum_{t=1}^{T}\log{P(a_t|s_t,\theta)} \tag{6}$
结合公式 $(4)$ 和 $(6) $ ，能推导出平均奖励的更新梯度公式：
$\nabla\bar{R}_{\theta}\approx\frac{1}{N}\sum_{i=1}^{N}R(\tau^{(i)})\nabla \log{P(\tau^{(i)}|\theta)}\\=\frac{1}{N}\sum_{i=1}^{N}\left[R(\tau^{(i)})\sum_{t=1}^{T}\log{P(a_{t}^{(i)}|s_{t}^{(i)},\theta)} \right] \\=\frac{1}{N}\sum_{i=1}^{N}\sum_{t=1}^{T}\left[R(\tau^{(i)})\log{P(a_{t}^{(i)}|s_{t}^{(i)},\theta)} \right] \tag{7}$
如果某个行动没有被模拟到，那么进行梯度更新的时候，这个行动在下次模拟过程中没有被sample的概率将减小。因为可以这么理解，所有可能行动的概率和是1，如果某些行动被模拟到了，说明概率比较高，梯度更新的时候，会增加它们的概率值，对于那些没有被模拟到的，概率将越来越小。修正方式也很容易，把奖励减去常数 $b$ 即可，给出公式：
$\nabla \bar{R}_{\theta}=\frac{1}{N}\sum_{i=1}^{N}\sum_{t=1}^{T}\left[\left(R(\tau^{(i)} )-b\right)\log{P(a_{t}^{(i)}|s_{t}^{(i)},\theta)} \right] \tag{8}$