强化学习|从Policy Gradient到Proximal Policy Optimization

最新推荐文章于 2022-06-02 14:12:00 发布

原创

最新推荐文章于 2022-06-02 14:12:00 发布 · 326 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习

本文详细介绍了从策略梯度方法到PPO算法的发展历程，涵盖了蒙特卡洛策略梯度、带基线的策略梯度、离策略策略梯度及PPO算法的原理与实现细节。

Model Free

1. 算法的演进(PG to PPO)

在这里插入图片描述

2. PG

不同于参数化动作价值函数，PG选择参数化策略 $\pi(a|s, \theta)$ 。
在这里插入图片描述

策略参数的学习方法都基于某种性能度量 $J(\theta)$ 的梯度，这些梯度是标量 $J(\theta)$ 对策略参数的梯度。这些方法的目标是最大化性能指标，所以他们的更新近似于 $J$ 的梯度上升
$\theta_{t+1} = \theta_{t} + \nabla J(\boldsymbol{\theta})$
在分幕式任务中，性能指标 $J(\theta)$ 被定义为：在当前参数化策略下初始状态的价值函数；在持续性任务中，性能指标被定义为：平均收益。[我们的性能度量必须要符合这两个定义吗？像PPO的 $J(\theta)$ 已经变得面目全非了，那它本质上是不是还归类为上面两类？那在实际问题中的性能指标呢？]

2.1 蒙特卡洛策略梯度

sutton书上的推导比较难懂，但更加严谨，李宏毅公开课上的推导容易理解。

主要思想:
采用蒙特卡洛法进行采样，用样本的均值来近似期望。

推导过程:
$\begin{aligned} \nabla J(\boldsymbol{\theta}) & \propto \sum_{s} \mu(s) \sum_{a} q_{\pi}(s, a) \nabla \pi(a \mid s, \boldsymbol{\theta}) (策略梯度定理)\\ &=\mathbb{E}_{\pi}\left[\sum_{a} q_{\pi}\left(S_{t}, a\right) \nabla \pi\left(a \mid S_{t}, \boldsymbol{\theta}\right)\right] \\ &把对随机变量所有可能的求和运算都化为对\pi的期望，再对期望采样\\ &=\mathbb{E}_{\pi}\left[\sum_{a} \pi\left(a \mid S_{t}, \boldsymbol{\theta}\right) q_{\pi}\left(S_{t}, a\right) \frac{\nabla \pi\left(a \mid S_{t}, \boldsymbol{\theta}\right)}{\pi\left(a \mid S_{t}, \boldsymbol{\theta}\right)}\right] \\ &=\mathbb{E}_{\pi}\left[q_{\pi}\left(S_{t}, A_{t}\right) \frac{\nabla \pi\left(A_{t} \mid S_{t}, \boldsymbol{\theta}\right)}{\pi\left(A_{t} \mid S_{t}, \boldsymbol{\theta}\right)}\right] （用采样A_t \backsim \pi替换a）\\ &=\mathbb{E}_{\pi}\left[G_{t} \frac{\nabla \pi\left(A_{t} \mid S_{t}, \boldsymbol{\theta}\right)}{\pi\left(A_{t} \mid S_{t}, \boldsymbol{\theta}\right)}\right] \\ &\approx \frac{1}{N} \sum_{n=1}^{N} \cdot \sum_{t=1}^{T_{n}} G_{t}^{n} \cdot \nabla \cdot \log \pi\left(A_{t}^{n} \mid S_{t}^{n}, \boldsymbol{\theta}\right)（？？？） \end{aligned}$