强化学习李宏毅上课笔记（一）_李宏毅强化学习笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_74304054/article/details/141326439

马尔科夫链#

RL分类

在这里插入图片描述

policy-based

基于策略的，mm输出是下一步的各种可能的期望，从而直接做出策略，该怎么走

value-based

基于值的，mm输出的是当前状态到终点可以获得的奖励（R）的期望。

actor

目标：最大化E(R)
episode：被认为是轨迹 $\tau$ （从开始到结束）

$\tau=\{s_1,a_1,r_1,s_2,a_2,r_2...,s_T,a_T,r_T\}$
$R(\tau)=\Sigma_{n=1}^Nr_n$
$P(\tau|\varTheta)$ :表示 $\tau$ 的发生概率和 $\varTheta$ 有关
$\overline{R_\varTheta}=\sum\limits_{\tau}R(\tau)P(\tau|\varTheta)≈\dfrac{1}{N}\Sigma_{n=1}^NR(\tau^n)$
$\dfrac{1}{N}\Sigma_{n=1}^NR(\tau^n)$
使用 $\pi_\varTheta$ 去玩N次游戏，得到轨迹抽样。单个样本被抽中的几率就是 $N*P(\tau|\varTheta)$ ，再乘上 $\dfrac{1}{N}$ 再求和就近似前一项。

gradient ascent 梯度上升

从 $\varTheta^0$ 开始
$\varTheta^1\gets\varTheta^0+\eta\nabla\overline{R_{\varTheta^0}}$
$\varTheta^2\gets\varTheta^1+\eta\nabla\overline{R_{\varTheta^1}}$
… …

$\nabla\overline{R_{\varTheta^1}}$ 表示的是在 $\varTheta^1$ 策略下获得的总奖励关于 $\varTheta^1$ 的梯度，举个例子，当奖励是正的，说明这个策略是好的，那么就让当前的趋势，也就是奖励 $R$ 相对于 $\varTheta$ 的梯度，让 $\varTheta$ 保持这样的趋势，就是加上它。

求梯度

$\overline{R_\varTheta}=\sum\limits_{\tau}R(\tau)P(\tau|\varTheta)$

$\nabla\overline{R_{\varTheta}}=?$

$\nabla\overline{R_{\varTheta}}=\sum\limits_{\tau}R(\tau)\nabla P(\tau|\varTheta)=\sum\limits_{\tau}R(\tau)P(\tau|\varTheta)\dfrac{\nabla P(\tau|\varTheta)}{P(\tau|\varTheta)}$
这里的 $R(\tau)$ 不一定是可微的，当成黑箱子也没关系
根据之前的公式 $\sum\limits_{\tau}R(\tau)P(\tau|\varTheta)≈\dfrac{1}{N}\Sigma_{n=1}^NR(\tau^n)$ ，代入上式。
$≈\dfrac{1}{N}\Sigma_{n=1}^NR(\tau^n)\nabla \log P(\tau|\varTheta)$

$\nabla \log P(\tau|\varTheta)=?$
$\nabla \log P(\tau|\varTheta)=\Sigma_{t=1}^T \nabla \log p(a_t|s_t,\varTheta)$
综上
$\nabla\overline{R_{\varTheta}}=\dfrac{1}{N}\Sigma_{n=1}^N\Sigma_{t=1}^{T_n}R(\tau^n)\nabla \log p(a_t|s_t,\varTheta)$
我说一下我对下面公式的理解，取N次抽象的路径，每个路径的总收益计算为R，每次actor的几率取log再微分，再总和这个路径上各个时间的类似操作，乘上之前的R，计算N次相加再平均。

直觉

baseline

上述公式从
$\nabla\overline{R_{\varTheta}}=\dfrac{1}{N}\Sigma_{n=1}^N\Sigma_{t=1}^{T_n}R(\tau^n)\nabla \log p(a_t|s_t,\varTheta)$
变为
$\nabla\overline{R_{\varTheta}}=\dfrac{1}{N}\Sigma_{n=1}^N\Sigma_{t=1}^{T_n}(R-b)(\tau^n)\nabla \log p(a_t|s_t,\varTheta)$
在这里插入图片描述
这是因为假如某个动作带来的回报很大，但是没有被抽样到，此时其他的动作带来的回报就会变得更大（抽样更多）。此时设置b为baseline，让其他回报小但抽样多的动作，得到的是负回报，这样最终的结果可以趋向于真实值。

从分类问题的角度看policy grandient

分类的目标函数
Minimize： $-\Sigma_{i=1}^{3}\^{y_i}\log y_i$
也就是
Maximize: $\Sigma_{i=1}^{3}\log y_i$
我们的问题:
Maximize: $\dfrac{1}{N}\Sigma_{n=1}^NR(\tau^n)\nabla \log P(\tau|\varTheta)$
也就是
Maximize: $\Sigma_{n=1}^N \log P(\tau|\varTheta)$
所以可以说，我们的问题就类似于分类的问题
$\nabla\overline{R_{\varTheta}}=\dfrac{1}{N}\Sigma_{n=1}^N\Sigma_{t=1}^{T_n}R(\tau^n)\nabla \log p(a_t|s_t,\varTheta)$
可以看成完全按照规定的轨迹走
$R(\tau^n)$ 则是在N次抽样中，按照该轨迹走的次数。