强化学习精要-优快云博客

本文链接：https://blog.youkuaiyun.com/anny0001/article/details/103762088

文章目录

强化学习基础概念
强化学习算法

强化学习基础概念

MP

下一时刻只跟前一时刻的状态有关，跟前面的状态无关。

策略 $\pi$

策略 $\pi$ 可以是一个函数，图表等由状态 $\rightarrow$ 动作的映射，在某个s状态时采取动作a的概率：
$\pi(a|s)=p[A_t=a|S_t=s]\tag{1}$

Reward

$G_t = R_{t+1}+\gamma R_{t+2}+\cdots=\sum^\infin_{k=0}\gamma^{k} R_{t+k+1} \tag{2}$

State Value function

遵从策略 $\pi$ 在状态s的状态值函数：
$v_\pi(s)=E_\pi[\sum^\infin_{k=0}\gamma^kR_{t+k+1}|S_t=s]\tag{3}$

State Value Bellman equation

$\begin{aligned} v(s) &= E[G_t|S_t=s]\\ &=E[R_{t+1}+\gamma R_{t+2}+\cdots|S_t=s]\\ &=E[R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3}+\cdots)|S_t=s]\\ &=E[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ &=E[R_{t+1}+\gamma v(S_{t+1})|S_t=s] \end{aligned}\tag{4}$

State-Action Value function

遵从策略 $\pi$ 在状态s采取动作a的状态动作值函数:
$q_\pi(s,a)=E_\pi[\sum^\infin_{k=0}\gamma^kR_{t+k+1}|S_t=s,A_t=a]\tag{5}$

State-Action Value Bellman equation

$q_\pi(s,a)=E_\pi[R_{t+1}+\gamma q(S_{t+1},A_{t+1})|S_t=s,A_t=a]\tag{6}$

Look ahead

在这里插入图片描述 $v_\pi(s)=\sum_{a\in A}\pi(a|s)q_\pi(s,a)\tag{7}$
$q_\pi(s,a)=R^a_s+\gamma \sum_{s'}P^a_{ss'}v_\pi(s')\tag{8}$
其中 $P^a_{ss'}$ 是状态转移概率
将8带入7式，可得：
$v_\pi(s)=\sum_{a\in A}\pi(a|s) R^a_s+\gamma \sum_{s'\in S}P^a_{ss'}v_\pi(s')\tag{9}$

在这里插入图片描述 $v_\pi(s')=\sum_{a'\in A}\pi(a'|s')q_\pi(s',a')\tag{10}$

在这里插入图片描述将10带入8，得到State-Ation Value
$q_\pi(s,a)=R^a_s +\gamma \sum_{s'\in S}P^a_{ss'}\sum_{a'\in A}\pi(a'|s')q_\pi(s',a')\tag{11}$

最优值函数

$v^\star(s)=\text{max}_\pi v(s)$ 是所有 $v (s)$ 中最大的,
$q^\star(s,a)=\text{max}_\pi q(s,a)$

Greedy

$\pi^\star(a|s)=\begin{cases} 1, & \text{if a=arg $max_{a\in A} q^\star(s,a)$}\\ 0,& \text{otherwise} \end{cases}$

$\epsilon$ -greedy

$\pi(s|a)=\begin{cases} 1-\epsilon+\frac{\epsilon}{|A(s)|}, & \text{if $a=argmax_aQ(s,a)$}\\ \frac{\epsilon}{|A(s)|}, & \text{if $a \neq argmax_aQ(s,a)$} \end{cases}$

softmax

详见RL:A Intro P37
$\pi(a|s,\theta)=\frac{e^{H_t(a)}}{\sum_be^{H_t(b)}}$
其中 $H_1(a)=1$ , 其更新公式为：
$H_{t+1}(A_t)=H_t(A_t)+\alpha(R_t-\bar R_t)(1-\pi_t(A_t)),\alpha$ 是step-size参数，可取0.1, 0.2, 0.3, 0.4 …

强化学习算法

有模型

动态规划

无模型

基于值函数的方法

MC蒙特卡洛法

通过一次实验产生一个 $\tau=\{S_1,A_1,R_1,S_2,A_2,R_2\cdots,S_T,R_T\}$

首次访问的MC

在一次试验中，首次访问时状态s的折扣回报为 $G_t(s)=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-t-1}R_T$ ，进行多次实验，再计算 $G (s)$ 的期望:
$v(s)=\frac{G_{t1}(s)+G_{t2}(s)+\cdots+G_{tN}(s)}{N}$

每次访问的MC

在一次试验中，每次访问状态s的折扣回报为 $G^i_t(s)=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-t-1}R_T$ ，上标i表示第i次实验，第i次实验中有h个访问到状态s，回报分别为 $G^i_{m_1},G^i_{m_2},G^i_{m_3},\cdots,G^i_{m_h}$ 。进行多次实验，再计算 $G (s)$ 的期望:
$v(s)=\frac{G^1_{m_1}(s)+G^1_{m_2}(s)+\cdots+G^1_{m_h}(s)+G^2_{t_1}(s)+\cdots+G^2_{t_n}(s)+\cdots}{N(G)}$

On-policy

进行实验来采样的策略(behavior policy)和目标策略(target policy)是同一个

Off-policy & Importance Sampling

进行实验来采样的策略(behavior policy)和目标策略(target policy)不是是同一个。

重要性采样。这是一个通用性方法，给定一个分布用另一个分布去估计其期望。根据目标策略 $\pi$ 和采样策略 $b$ 它们的 $\tau$ (trajectoris)发生的相关性概率，给予相应权重，将Importance-sampling技术应用到Off-policy上。给定初始状态 $S_t$ ,在策略 $\pi$ 下的之后的状态－动作轨迹 $\tau$ 的概率：
$P\{A_t,S_{t+1},A_{t+1},\cdots,S_T|S_t,A_{t:T-1} \sim \pi \}\\ \begin{aligned} &= \pi(A_t|S_t)p(S_{t+1}|S_t,A_t)\pi(A_{t+1}|S_{t+1})\cdots p(S_T|S_{T-1},A_{T-1}) \\ &= \prod^{T-1}_{k=t} \pi(A_k|S_k)p(S_{k+1}|S_k,A_k) \\ \end{aligned}$
重要性率：
$\rho_{t:T-1} \dot =\frac{\prod^{T-1}_{k=t} \pi(A_k|S_k)p(S_{k+1}|S_k,A_k) } {\prod^{T-1}_{k=t} b(A_k|S_k)p(S_{k+1}|S_k,A_k) }=\prod^{T-1}_{k=t}\frac{\pi(A_k|S_k)}{b(A_k|S_k)}$

普通重要性采样ordinary importance sampling

$\dot= \frac{\sum_{t\in \mathscr T(s)} \rho_{t:T(t)-1}G_t} {|\mathscr T(s)|}$

其中ｔ是访问状态ｓ的时刻， $T (t)$ 是访问状态ｓ相对应的实验终止状态对应的时刻， $\mathscr T(s)$ 是ｓ发生的所有时刻的集合。

加权重要性采样weighted importance sampling

$\dot =\frac{\sum_{t\in \mathscr T(s)} \rho_{t:T(t)-1}G_t} {\sum_{t\in \mathscr T(s)}\rho_{t:T(t)-1}}$

－　假设我么有一列回报收益 $G_1,G_2,\dots,G_{n-1}$ ，都从同一个状态起始，每个都对应随机权重 $W_i$ (e.g. $W_i=\rho_{t_i:T(t_t)-1}$ ). 我们希望组建一个估计：
$V_n\dot = \frac{\sum^{n-1}_{k=1}W_kG_k} {\sum^{n-1}_{k=1}W_k}, \ n \geq 2$
且当我们获得一个新回报 $G_n$ 的时候保持其更新。要保持对 $V_n$ 的更新轨迹，我们必须对每个状态维持给首次n个回报权重的不断累计的 $C_n$ 之和。 $V_n$ 更新规则是：
$V_{n+1}\dot=V_n +\frac{W_n}{C_n}[G_n-V_n],\ n\geq1$

and
$C_{n+1} \dot =C_n+W_{n+1}$
其中 $C_0\dot=0,V_1$ 是任意的因此不用特别声明其值。

pseudocode:
**Off-policy MC prediction (policy evaluation) for estimating Q**

在这里插入图片描述

TD(Temporal-Difference)时间差分法

Sarsa: On-policy TD Control

Action-values update

$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t)]$
如果 $S_{t+1}$ 结束，则 $Q(S_{t+1},A_{t+1})$ 为０．
其TD error为 $\delta_t=R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t)$

pseudocode:
在这里插入图片描述

Q-learning: Off-policy TD Control

Action-Values update

$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma \text{max}_aQ(S_{t+1},a)-Q(S_t,A_t)]$
这里，学习的动作值函数Ｑ直接用去近似最优动作函数 $q^*$ ,而不依赖策略。

pseudocoe:
在这里插入图片描述

TD( $\lambda$ )

回忆在Monte Carlo更新 $v_\pi(S_t)$ 的估计中，我们直接用全部的Return:
$G_t\dot=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots+\gamma^{T-t-1}R_T$
我们成这个量为更新的目标。
而在一步的更新中，其目标为：
$G_{t:t+1}\dot=R_{t+1}+\gamma V_t(S_{t+1})$
其中 $V_t:\mathcal S\rightarrow \mathbb R$ 是 $v_\pi$ 在时刻ｔ的估计。 $G_{t:t+1}$ 下标表示它是从ｔ到ｔ＋１的截断Return，折扣估计 $\gamma V_t(S_{t+1})$ 替代了 $\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots+\gamma^{T-t-1}R_T$ .
在两步的更新中，其目标为：
$G_{t:t+2}\dot=R_{t+1}+ \gamma R_{t+2}+ \gamma^2 V_{t+1}(S_{t+2})$
$\cdots$
类似的，在n步更新中，其目标为:
$G_{t:t+n}\dot=R_{t+1}+ \gamma R_{t+2}+\cdots+ \gamma^{n-1}R_{t+n}+\gamma^{n} V_{t+n-1}(S_{t+n})$
其中for all n,t such that $n > 1$ and $0\le t\le T-n$ .

那么自然地，状态值函数的n步更新算法为：
$V_{t+n}(S_t)\dot=V_{t+n-1}(S_t)+\alpha[G_{t:t+n}-V_{t+n-1}(S_{t})]$
其中 $0\le t<T.$

pseudocode: 在这里插入图片描述

n-step Sarsa

在这里插入图片描述

Action-values update

从估计的动作值角度重新定义ｎ-step收益（更新目标）:
$G_{t:t+n}\dot=R_{t+1}+ \gamma R_{t+2}+\cdots+ \gamma^{n-1}R_{t+n}+\gamma^{n} Q_{t+n-1}(S_{t+n},A_{t+n}),n\ge1,0\le t<T-n$
其中，如果 t+n>=T,则 $G_{t:t+n}\dot=G_t$ 。算法为：
$Q_{t+n}(S_t,A_t)\dot=Q_{t+n-1}(S_t,A_t)+\alpha[G_{t:t+n}-Q_{t+n-1}(S_t,A_t)],0\le t<T$

pseudocode
在这里插入图片描述

n-step Off-policy Learning

在 n-stepTD方法中，returns是由 n 步构建的，所以我们只对那 n 步的相关概率感兴趣。如，对于 n-step　的 off-policy 版本，对与时刻 t (实际实在时刻 t+n )的更新能容易地通过 $\rho_{t:t+n-1}$ 赋予权重：
$V_{t+n}(S_t)\dot=V_{t+n-1}(S_t)+\alpha \rho_{t:t+n-1}[G_{t:t+n}-V_{t+n-1}(S_t)],\ 0\le t<T$
其中 $\rho_{t:t+n-1}$ 重要采样率，是在两个策略采取从 $A_t\ to\ A_{t+n-1}$ 这 n 个动作的相关概率：
$\rho_{t:h}\dot= \prod^{min(h,T-1)}_{k=1}\frac{\pi(A_k|S_k)}{b(A_k|S_k)}$

Action-values update

类似于前面 n-step Sarsa 更新，加入一个重要采样率，一个简单 off-policy 的形式：
$Q_{t+n}(S_t,A_t)\dot=Q_{t+n-1}(S_t,A_t)+\alpha \rho_{t+1:t+n}[G_{t:t+n}-Q_{t+n-1}(S_t,A_t)],\ 0\le t<T$
在这里插入图片描述