Reinforcement Learning:An introduction读书笔记-Chapter 2

最新推荐文章于 2023-05-28 19:51:15 发布

翻译最新推荐文章于 2023-05-28 19:51:15 发布 · 828 阅读

文章标签：

#读书笔记

RL: An introduction 读书笔记专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了多臂老虎机问题的基础概念与多种解决方案，包括样本平均法、ε-贪婪策略、乐观初始值、上置信界行动选择等，并介绍了梯度老虎机算法及其背后的随机梯度上升原理。

Chapter 2 Multi-arm Bandits

Chapter 2 Multi-arm Bandits

评价性反馈(evaluative feedback)：知道这个action有多好，但不知道是不是最好的。
指导性反馈(instructive feedback):已知正确的action是什么，和现在采取的action无关。

本章主要内容是增强学习简化的evaluate，即只在一个状态下的学习，也就是没有连接性的(nonassociative)。

2.1 A k-Armed Bandit Problem

k-armed bandit problem 是什么？

可以类比成一个自动售货机，这个售货机有k个拉杆，也就是有k种选择，每种选择都有一定的回报，且这些回报都是满足一个稳定的概率分布的。问题的目的就是要尽可能最大化总的回报（比如1000次选择后的回报）

问题表示

$q_{*}(a)$ 是某个action a被选择时reward的期望，也就是action的value。

q * (a) = E [R t | A t = a]

$q_{*}(a) = \mathbb{E}[R_{t}|A_{t} = a]$
如果value是知道的，那么我们只要选择大value的action就可以了。如果我们不知道确切的value，那么就要让

Qt(a)≈q∗(a) $Q_{t}(a) \thickapprox q_{*}(a)$ (

Qt(a) $Q_{t}(a)$ 是我们预估的action a 的期望。)

这时候就涉及到了exploration和exploitation矛盾的问题，尽管在每次预估的时候都会有一个value最大的action,这个action是greedy action,选择这个action (exploitation)满足了我们最大化回报的目的，但是我们并不知道其他的action会不会有更大的回报,选择其他的action(exploration)可能会造成短期的回报减少，但当找到回报更大的action时，我们的长期回报就会增加。

2.2 Action-Value Methods

sample-average

value $Q_{t}(a)$ 即为action a 被选中时reward的总和除以action a被选中的次数。

Q t (a) ≐ \sum t - 1 i = 1 R i \cdot 1 A i = a \sum t - 1 i = 1 1 A i = a

$Q_{t}(a) \doteq \frac{\sum_{i=1}^{t-1}R_{i} \cdot \textbf{1}_{A_{i} = a}}{\sum_{i=1}^{t-1}\textbf{1}_{A_{i} = a}}$

$\varepsilon$ -greedy methods

在做选择时最简单的方法就是选value最大的action

A t ≐ arg max a Q t (a)

$A_{t} \doteq \mathop {\arg\max}_{a}Q_{t}(a)$
但是因为想做一定的exploration,就可以在大部分时间选取greedy-action，但是有很小的几率

ε $\varepsilon$ 在所有action中随机选择。

这种做法的优势在于，随着时间的延长 $Q_{t}(a)$ 会逐渐收敛于 $q_{*}(a)$ ，最优的action的Q会逐渐收敛至大于1- $\varepsilon$ (应该收敛到了1- $\varepsilon$ + $\frac{\varepsilon}{n}$ (n是action的总数))，但是效率并不一定高。

Example

该节举了一个10-armed bandit的例子，假设10个action value是从高斯分布(0,1)中选出的，真正的回报又是满足高斯分布( $q_{*}(A_{t})$ ,1),比较greedy method和两个 $\varepsilon$ -greedy method的表现， $\varepsilon$ 分别为0.1，0.01。

最后的结果是greedy method虽然在开始增长较快，但最后表现最差； $\varepsilon$ 为0.1的算法增长比 $\varepsilon$ 为0.01的算法增长快，但是取到最优action的概率不会超过91%，其最后的表现不如 $\varepsilon$ 为0.01的算法

$\varepsilon$ 的取值与很多因素有关，比如例子中的方差，如果reward的方差较大则偏向取 $\varepsilon$ 较大的算法，反之相反，这是因为若reward的变化不大，greedy算法在第一次就能知道哪个action的value较大。

但随着学习时间及策略的变化，k-armed bandit的任务情况也在不断变化，所以哪怕reward的方差很小，也不能保证在变化中其他action的value会不会超过已知的最优action，所以exploration都是需要的。

2.3 Incremental Implementation

如何使得样本平均值可以更有效的计算出来(常数的内存，每步一次计算)

Q n + 1 = Q n + 1 n [R n - Q n]

$Q_{n+1} = Q_{n} + \frac{1}{n}[R_{n} - Q_{n}]$
范式：

N e w E s t i m a t e \leftarrow O l d E s t i m a t e + S t e p S i z e [T a r g e t - O l d E s t i m a t e]

$NewEstimate \gets OldEstimate + StepSize[Target - OldEstimate]$
这里的

StepSize $StepSize$ 参数就是

1n $\frac{1}{n}$ ,之后会用

α $\alpha$ 或

αt(a) $\alpha_{t}(a)$ 来表示

2.4 Tracking a Nonstationary Problem

在不稳定的情况下，让近期的reward占更大比重是有道理的。比较好的解决方法是将步长( $\alpha$ )设为一个常数。

Q n + 1 ≐ Q n + α [R n - Q n] = α R n + (1 - α) Q n = α R n + (1 - α) [α R n - 1 + (1 - α) Q n - 1] = α R n + (1 - α) α R n - 1 + (1 - α) 2 Q n - 1 = α R n + (1 - α) α R n - 1 + (1 - α) 2 α R n - 2 + . . . + (1 - α) n - 1 α R 1 + (1 - α) n Q 1 = (1 - α) n Q 1 + \sum i = 1 n (1 - α) n - i α R i

$\begin{aligned} Q_{n+1} &\doteq Q_{n} + \alpha[R_{n} - Q_{n}] \\ &= \alpha R_{n} + (1 - \alpha)Q_{n} \\ &= \alpha R_{n} + (1 - \alpha)[\alpha R_{n-1} + (1-\alpha)Q_{n-1}] \\ &= \alpha R_{n} + (1 -\alpha)\alpha R_{n-1} + (1 - \alpha)^{2}Q_{n-1} \\ &= \alpha R_{n} + (1 - \alpha)\alpha R_{n-1} + (1-\alpha)^{2}\alpha R_{n-2} +...+(1-\alpha)^{n-1}\alpha R_{1} + (1-\alpha)^{n}Q_{1} \\ &= (1-\alpha)^{n}Q_{1}+\sum^{n}_{i=1}(1-\alpha)^{n-i}\alpha R_{i} \end{aligned}$
由于系数和

(1−α)n+∑ni=1α(1−α)n−i=1 $(1-\alpha)^{n}+\sum^{n}_{i=1}\alpha(1-\alpha)^{n-i}=1$ 所以叫做weighted average。

从式子中我们可以看出由于 $1-\alpha \leq 1$ ,说明越早的reward的影响力在不断减小，这种方法也叫exponential,recency-weighted average。

我们还可以在每一步时都改变参数 $\alpha$ ，为了让最后的value收敛，序列 ${\alpha_{n}(a)}$ 必须要满足以下条件。

\sum n = 1 \infty α n (a) = \infty

$\sum^{\infty}_{n=1}\alpha_{n}(a) = \infty$
这是为了让步长足够大避开一开始的一些波动与干扰，同时还要满足

\sum n = 1 \infty α 2 n (a) < \infty

$\sum^{\infty}_{n=1}\alpha_{n}^2(a) < \infty$
这是为了让步长足够小以便于收敛。

当 $\alpha$ 是常数的时候不满足后面的条件所以它是不收敛的。这样的步长是不稳定状态下所需要的。

2.5 Optimistic Initial Values

之前讨论的所有方法都是与最开始的action-value有关( $Q_{1}(a)$ )。对于sample-average, $Q_{1}(a)$ 的影响要在所有a都被取到时才被消除，而对于 $\alpha$ 为常数的weighted average，由于 $Q_{n+1} = (1-\alpha)^{n}Q_{1}+\sum^{n}_{i=1}(1-\alpha)^{n-i}\alpha R_{i}$ ,所以始终与 $Q_{1}$ (即所有 $Q_{1}(a)$ 有关)。

初始的action-value值还可以鼓励agent进行exploration。比如将10-armed bandit问题的初始值设为5，则无论选择哪个action，reward都少于初始值，也就是 $Q_{t}(a)$ 在减小，所以所有的action都会被尝试。这种方法被称为optimistic initial values，这个方法在稳定的情况下比较有效。

2.6 Upper-Confidence Bound Action Selection

如果选择的时候更偏向于有潜力成为最优的non-greedy actions会更好，将它们的估值与最大值的差距以及它们估值的不确定性都考虑进来。

A t ≐ a r g m a x a [Q t (a) + c l o g t N t ( a ) - - - - - - \sqrt]

$A_{t} \doteq \mathop{arg\ max}_{a}[Q_{t}(a) + c\sqrt{\frac{log{t}}{N_{t}(a)}}]$
其中

logt $log{t}$ 为t的自然对数，

Nt(a) $N_{t}(a)$ 是在t前a被选择的次数，

c>0 $c>0$ 控制着exploration的程度。如果

Nt(a)=0 $N_{t}(a) = 0$ ,a会被认为是取到最大值的action，称为upper confidence bound(UCB)。

其中平方根项为a value的不确定性或者说是方差。这整个项便是action a可能最大值的上限，c决定了可信度。每次某个action被选择了，那么其不确定性就会降低。相反，当t增加，但是 $N_{t}(a)$ 不变其不确定性就会增大。对数的应用则是随着时间的增加，其增长会变小，但是无限的。所有actions都会被选择到，但是随着时间的增加value小的action被选择到的频率就会更小。

2.7 Gradient Bandit Algorithms

学会对于每个action a的偏好(preference)。只有相对偏好有用。下述式子中 $\pi_{t}(a)$ 是采取各个action的概率， $H_{t}(a)$ 是各action的preference

P r {A t = a} ≐ e H t ( a ) \sum k b = 1 e H t ( b ) ≐ π t (a)

$Pr\{A_{t} = a\} \doteq \frac{e^{H_{t}(a)}}{\sum^{k}_{b=1}e^{H_{t}(b)}}\doteq \pi_{t}(a)$
在每次选择了action

At $A_{t}$ 之后

Ht(a) $H_{t}(a)$ 的更新如下

H t + 1 (A t) H t + 1 (a) ≐ H t (A t) + α (R t - R ¯ ¯ ¯ t) (1 - π t (A t)) ≐ H t (a) - α (R t - R ¯ ¯ ¯ t) π t (a), \forall a \neq A t

$\begin{aligned} H_{t+1}(A_{t})&\doteq H_{t}(A_{t}) + \alpha(R_{t}-\overline R_{t})(1-\pi_{t}(A_{t})) \\H_{t+1}(a) &\doteq H_{t}(a) - \alpha(R_{t} - \overline R_{t})\pi_{t}(a),\qquad\forall a \neq A_{t} \end{aligned}$
其中

α $\alpha$ 是步长，

α>0 $\alpha>0$ 。

Gradient Bandit Algorithm事实上就是Stochastic Gradient Ascent，证明如下。

Stochastic Gradient Ascent:

H t + 1 (a) E [R t] ≐ H t (a) + α \partial E [ R t ] \partial H t ( a ) / / 求 出 期 望 关 于 H 的 偏 导 ， 更 新 H 使 得 E 尽 可 能 大 ≐ \sum b π t (b) q * (b)

$\begin{aligned} H_{t+1}(a)&\doteq H_{t}(a) + \alpha \frac{\partial \mathbb{E}[R_{t}]}{\partial H_{t}(a)} \qquad //求出期望关于H的偏导，更新H使得\mathbb{E}尽可能大 \\\mathbb{E}[R_t]&\doteq \sum_{b} \pi_t(b)q_*(b) \end{aligned}$
根据Stochastic Gradient Ascent的几条性质可以进行推导

\partial E [ R t ] \partial H t ( a ) = \partial \partial H t ( a ) [\sum b π t (b) q * (b)] = \sum b q * (b) \partial π t ( b ) \partial H t ( a ) / / q * (b) 与 H t (a) 无 关 = \sum b (q * (b) - X t) \partial π t ( b ) \partial H t ( a ) / / X t 可 以 取 任 何 与 b 无 关 的 值 ， 因 为 所 有 a c t i o n 的 概 率 和 为 1 与 H t (a) 无 关 ， 所 以 \sum b \partial π t ( b ) \partial H t ( a ) = 0, 所 以 X t \partial π t ( b ) \partial H t ( a ) = 0. = \sum b π t (b) (q * (b) - X t) \partial π t ( b ) \partial H t ( a ) / π t (b) = E [(q * (A t) - X t) \partial π t ( A t ) \partial H t ( a ) / π t (A t)] = E [(R t - R ¯ ¯ ¯ t) \partial π t ( A t ) \partial H t ( a ) / π t (A t)] = E [(R t - R ¯ ¯ ¯ t) π t (A t) (1 a = A t - π t (a)) / π t (A t)] / / 1 a = A t 是 a = A t 时 取 1 反 之 取 0 / / \partial π t ( b ) \partial H t ( a ) = π t (b) (1 a = b - π t (a)) 下 面 会 给 出 证 明 = E [(R t - R ¯ ¯ ¯ t) (1 a = A t - π t (a))] / / 这 个 分 成 a = A t 和 a \neq A t 带 入 性 质 中 就 可 以 得 出 上 面 的 式 子

$\begin{aligned} \frac{\partial \mathbb{E}[R_{t}]}{\partial H_{t}(a)}&=\frac{\partial}{\partial H_t(a)}[\sum_{b}\pi_t(b)q_*(b)] \\&=\sum_b q_*(b)\frac{\partial \pi_t(b)}{\partial H_t(a)} \qquad //q_*(b)与H_t(a)无关 \\&=\sum_b(q_*(b) - X_t)\frac{\partial \pi_t(b)}{\partial H_t(a)} \qquad \\&//X_t可以取任何与b无关的值，因为所有action的概率和为1与H_t(a)无关，所以\sum_b \frac{\partial \pi_t(b)}{\partial H_t(a)} = 0,所以X_t\frac{\partial \pi_t(b)}{\partial H_t(a)} = 0. \\&=\sum_b \pi_t(b)(q_*(b) - X_t)\frac{\partial \pi_t(b)}{\partial H_t(a)}/\pi_t(b) \\&=\mathbb{E}[(q_*(A_t) - X_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}/\pi_t(A_t)] \\&=\mathbb{E}[(R_t - \overline R_t)\frac{\partial \pi_t(A_t)}{\partial H_t(a)}/\pi_t(A_t)] \\&=\mathbb{E}[(R_t - \overline R_t)\pi_t(A_t)(\textbf{1}_{a = A_t} - \pi_t(a))/\pi_t(A_t)] \\&//\textbf{1}_{a=A_t}是a = A_t时取1 反之取 0 \\&//\frac{\partial \pi_t(b)}{\partial H_t(a)} = \pi_t(b)(\textbf{1}_{a = b} - \pi_t(a))下面会给出证明 \\&=\mathbb{E}[(R_t - \overline R_t)(\textbf{1}_{a = A_t} - \pi_t(a))] \\&//这个分成a=A_t和a\neq A_t带入性质中就可以得出上面的式子 \end{aligned}$
接着证明

∂πt(b)∂Ht(a)=πt(b)(1a=b−πt(a)) $\frac{\partial \pi_t(b)}{\partial H_t(a)} = \pi_t(b)(\textbf{1}_{a = b} - \pi_t(a))$

\partial π t ( b ) \partial H t ( a ) = \partial \partial H t ( a ) π t (b) = \partial \partial H t ( a ) [e H t ( b ) \sum k c = 1 e H t ( c )] = \partial e H t ( b ) \partial H t ( a ) \sum k c = 1 e H t ( c ) - e H t ( b ) \partial \sum k c = 1 e H t ( c ) \partial H t ( a ) ( \sum k c = 1 e H t ( c ) ) 2 = 1 a = b e H t ( a ) \sum k c = 1 e H t ( c ) - e H t ( b ) e H t ( a ) ( \sum k c = 1 e H t ( c ) ) 2 / / \partial e H t ( b ) \partial H t ( a ) = \partial e H t ( b ) \partial H t ( b ) * \partial H t ( b ) \partial H t ( a ) 只 有 在 a = b 的 时 候 才 是 有 关 的 并 是 e H t (a) ， 其 余 时 候 是 0 / / \partial \sum k c = 1 e H t ( c ) \partial H t ( a ) 只 有 在 c = a 时 才 是 e H t (a) 其 余 为 0 ， 所 以 和 为 e H t (a) = 1 a = b e H t ( b ) \sum k c = 1 e H t ( c ) - e H t ( b ) e H t ( a ) ( \sum k c = 1 e H t ( c ) ) 2 = 1 a = b π t (b) - π t (b) π t (a) = π t (b) (1 a = b - π t (a))

$\begin{aligned} \frac{\partial \pi_t(b)}{\partial H_t(a)} &= \frac{\partial}{\partial H_t(a)}\pi_t(b) \\&= \frac{\partial}{\partial H_t(a)}[\frac{e^{H_{t}(b)}}{\sum^{k}_{c=1}e^{H_{t}(c)}}] \\&= \frac{\frac{\partial e^{H_t(b)}}{\partial H_t(a)}\sum_{c=1}^k e^{H_t(c)}-e^{H_t(b)} \frac{\partial \sum_{c=1}^k e^{H_t(c)}}{\partial H_t(a)}}{(\sum_{c=1}^k e^{H_t(c)})^2} \\&=\frac{\textbf{1}_{a = b}e^{H_t(a)}\sum_{c=1}^k e^H_t(c) - e^{H_t(b)}e^{H_t(a)}}{(\sum_{c=1}^k e^{H_t(c)})^2} \\&//\frac{\partial e^{H_t(b)}}{\partial H_t(a)} = \frac{\partial e^{H_t(b)}}{\partial H_t(b)} * \frac{\partial H_t(b)}{\partial H_t(a)}只有在a=b的时候才是有关的并是e^{H_t(a)}，其余时候是0 \\&//\frac{\partial \sum_{c=1}^k e^{H_t(c)}}{\partial H_t(a)}只有在c = a时才是e^{H_t(a)}其余为0，所以和为e^{H_t(a)} \\&=\frac{\textbf{1}_{a = b}e^{H_t(b)}}{\sum_{c=1}^k e^{H_t(c)}} - \frac{e^{H_t(b)}e^{H_t(a)}}{(\sum_{c=1}^k e^{H_t(c)})^2} \\&=\textbf{1}_{a=b}\pi_t(b)-\pi_t(b)\pi_t(a) \\&=\pi_t(b)(\textbf{1}_{a=b}-\pi_t(a)) \end{aligned}$
正因为如此，我们可以保证这个算法和stochastic gradient ascent一样是收敛的，至于baseline，选择什么数都不影响其收敛，但是会影响其收敛速度，选择

Rt¯¯¯¯ $\overline{R_t}$ 在大部分情况下都可以表现的比较好

2.8 Associative Search(Contextual Bandits)

本节主要讨论结合不同的action到不同的场景中去的做法。
Example:如果有几个不同的k-armed bandit task，在每一步都是随机的碰到其中的一个。在每次action value变化时你会得到变化的提示，比如在第一个机器上做选择时其显示为红色，第二个显示为绿色。这样你就可以选择在红色出现时选择最优的选择arm 1，而在绿色出现时改变策略。
这个问题介于k-armed bandit tasks和完全增强学习问题之间，如果其选择会影响到下一步那么就变成了一个完全增强学习问题。