Why does policy gradiet method has high variance?

最新推荐文章于 2023-02-21 09:19:26 发布

原创最新推荐文章于 2023-02-21 09:19:26 发布 · 599 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#高方差 #策略梯度

强化学习专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了策略梯度方法的基本原理及其在强化学习中的应用。包括目标函数的定义、梯度计算公式推导以及如何通过调整策略参数来最大化长期奖励。此外还探讨了通过减少方差来提高学习效率的方法。

策略梯度方法

策略梯度方法中，目标函数是使得整个episode得到的reward的均值最大：

m a x i m i z e θ E π θ [\sum t = 0 T - 1 γ t r t]

${\rm maximize}_{\theta}\; \mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1}\gamma^t r_t\right]$
由于：

\nabla θ E [f (x)] = \nabla θ \int p θ (x) f (x) d x = \int p θ ( x ) p θ ( x ) \nabla θ p θ (x) f (x) d x = \int p θ (x) \nabla θ log p θ (x) f (x) d x = E [f (x) \nabla θ log p θ (x)]

$\begin{align} \nabla_\theta \mathbb{E}[f(x)] &= \nabla_\theta \int p_\theta(x)f(x)dx \\ &= \int \frac{p_\theta(x)}{p_\theta(x)} \nabla_\theta p_\theta(x)f(x)dx \\ &= \int p_\theta(x)\nabla_\theta \log p_\theta(x)f(x)dx \\ &= \mathbb{E}\Big[f(x)\nabla_\theta \log p_\theta(x)\Big] \end{align}$

以及：

\nabla θ log p θ (τ) = \nabla log (μ (s 0) \prod t = 0 T - 1 π θ (a t | s t) P (s t + 1 | s t, a t)) = \nabla θ [log μ (s 0) + \sum t = 0 T - 1 (log π θ (a t | s t) + log P (s t + 1 | s t, a t))] = \nabla θ \sum t = 0 T - 1 log π θ (a t | s t)

$\begin{align} \nabla_\theta \log p_\theta(\tau) &= \nabla \log \left(\mu(s_0) \prod_{t=0}^{T-1} \pi_\theta(a_t|s_t)P(s_{t+1}|s_t,a_t)\right) \\ &= \nabla_\theta \left[\log \mu(s_0)+ \sum_{t=0}^{T-1} (\log \pi_\theta(a_t|s_t) + \log P(s_{t+1}|s_t,a_t)) \right]\\ &= \nabla_\theta \sum_{t=0}^{T-1}\log \pi_\theta(a_t|s_t) \end{align}$
两个等式的成立，假设：

R (τ) = \sum t = 0 T - 1 r t

$R(\tau) = \sum_{t=0}^{T-1}r_t$
则目标函数对参数的梯度可以写作：

\nabla θ E τ \sim π θ [R (τ)] = E τ \sim π θ [R (τ) \cdot \nabla θ (\sum t = 0 T - 1 log π θ (a t | s t))]

$\nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)] = \mathbb{E}_{\tau \sim \pi_\theta} \left[R(\tau) \cdot \nabla_\theta \left(\sum_{t=0}^{T-1}\log \pi_\theta(a_t|s_t)\right)\right]$

The naive way is to run the agent on a batch of episodes, get a set of trajectories (call it τ^) and update with ：

θ \leftarrow θ + α \nabla θ E τ \in τ^[R (τ)]

$\theta \leftarrow \theta + \alpha \nabla_\theta \mathbb{E}_{\tau \in \hat{\tau}}[R(\tau)]$

using the empirical expectation, but this will be too slow and unreliable due to high variance on the gradient estimates. After one batch, we may exhibit a wide range of results: much better performance, equal performance, or worse performance. The high variance of these gradient estimates made the learning process very slow and unstable.

为什么方差高了，学习进程就会变慢呢？

由中心极限定理：

其中：

可知，当n无穷大时，真实均值μ
可以以1-α的概率趋近于区间：

因此，下面式子的绝对值越小，用样本均值估计真实均值的置信度越高：

分母：样本数目越大，置信度越高
分子：样本方差越小，置信度越高
通常，基于蒙特卡洛的算法通过多次采样来估计均值，实验中通常会采集到差别较大的不同样本，使得样本的方差较大（分子较大），除非采样数目无限多（分母较大），一般都会由于样本数据的高方差而使得估计的均值与真实均值间误差较大，从而降低学习效率。
为了改善这一点，可以有意识的用某些方法来采集到均值相同，方差较小的样本，从而使得样本均值的估计值更可信。

为什么减掉一个baseline就可以减小梯度估计的方差了呢？

这个baseline可以通俗的理解为一个平均水平，在减掉baseline之前，方差用下面的式子计算：
(x1+x1’-x1_)^2
减掉baseline x1’之后：
(x1-x1_)^2
不就变小了嘛。其中x1_为均值，x1’为baseline，x1为第一个样本中去掉baseline的部分。
同时，在减小方差的同时，保证了无偏估计，即样本均值的估计值等于真实的均值。我们可以计算一下加入baseline部分的期望：