强化学习—— 基于baseline的策略梯度（Reinforce算法与A2C）

原创

已于 2022-04-16 15:55:25 修改 · 1.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #算法 #强化学习 #人工智能 #A2C

于 2022-04-12 14:34:54 首次发布

本文详细探讨了强化学习中Reinforce算法的基础概念、策略梯度推导，以及A2C算法的网络结构、训练过程和数学原理。重点讲解了策略梯度中的baseline选择、蒙特卡洛近似和A2C算法的onestep和multi-step TD Target。最后对比了Reinforce与A2C的异同，指出Reinforce是A2C的特殊情况。

1. baseline的推导

策略网络为： $\pi(a|s;\theta)$
状态价值函数为： $V_\pi(s)=E_{A\sim\pi}[Q_\pi(A,s)]\\=\sum_a\pi(a|s;\theta)\cdot Q_\pi(a,s)$
策略梯度为： $\frac{\partial V_\pi(s)}{\partial \theta}=E_{A\sim\pi}[Q_\pi(s,a)\cdot\frac{\partial log(\pi(a|s;\theta))}{\partial \theta}]$
设b为不依赖于动作A的任何函数，则： $E_{A\sim\pi}[b\cdot \frac{\partial log(\pi(a|s;\theta))}{\partial \theta}]\\=b\cdot E_{A\sim\pi}[\frac{\partial log(\pi(a|s;\theta))}{\partial \theta}]\\ = b\cdot \sum_a \pi(a|s;\theta)\cdot \frac{\partial log(\pi(a|s;\theta))}{\partial \theta}\\=b\cdot \sum_a \pi(a|s;\theta)\cdot \frac{1}{\pi(a|s;\theta)}\cdot \frac{\partial \pi(a|s;\theta)}{\partial \theta}\\ =b\cdot \frac{\partial \sum_a \pi (a|s;\theta)}{\partial \theta}\\=b\cdot\frac{\partial1}{\partial \theta}\\=0$ 因此，如果b独立于动作A，则： $E_{A\sim\pi}[b\cdot\frac{\partial log(\pi(a|s;\theta))}{\partial \theta}]=0$
则带baseline的策略梯度为： $\frac{\partial V_\pi(s)}{\partial \theta}=E_{A\sim\pi}[Q_\pi(A,s)\cdot\frac{\partial log(\pi(A|s,\theta))}{\partial \theta}]-E_{A\sim\pi}[b\cdot\frac{\partial log(\pi(A|s,\theta))}{\partial \theta}]\\=E_{A\sim\pi}[\frac{\partial log(\pi(A|s;\theta))}{\partial \theta}\cdot(Q_\pi(A,s)-b)]$ b不会影响期望，但合适的b会降低蒙特卡洛近似的方差，加快模型收敛。

2. 策略梯度的蒙特卡洛近似

基于baselin的策略梯度为： $\frac{\partial V_\pi(s_t)}{\partial \theta}==E_{A_t\sim\pi}[\frac{\partial log(\pi(A_t|s_t;\theta))}{\partial \theta}\cdot(Q_\pi(A_t,s_t)-b)]\\g(A_t)=\frac{\partial log(\pi(A_t|s_t;\theta))}{\partial \theta}\cdot(Q_\pi(A_t,s_t)-b)$
依据策略函数随机抽样得到t时刻的动作： $a_t\sim\pi(\cdot|s_t;\theta)$
则策略梯度的无偏估计为： $g(a_t)$
随机策略梯度： $g(a_t)=(Q_\pi(s_t,a_t)-b)\cdot(\frac{\partial log(\pi(a_t|s_t;\theta))}{\partial \theta})$

最低0.47元/天解锁文章