《强化学习》第二版阅读随笔2

最新推荐文章于 2025-06-01 08:28:51 发布

原创最新推荐文章于 2025-06-01 08:28:51 发布 · 509 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #人工智能

《强化学习》第二版阅读随笔专栏收录该内容

4 篇文章

订阅专栏

本文探讨了强化学习中的多臂老虎机问题，讲解了如何平衡探索与利用，介绍了行为价值方法、ϵ-贪婪策略、UCB行动选择及梯度算法，并分析了不同策略在学习过程中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第二章——多臂老虎机（Multi-armed Bandits）

The most important feature distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the actions taken rather than instructs by giving correct actions. 使强化学习与其他深度学习模型区分开来的是它会使用学习所得的信息对所采取的行动进行评估，而不是直接给出正确的答案。这其中包含了类似于思考的成分，而有监督学习所得到的卷积神经网络更像是一种直觉或本能。
These two kinds of feedback are quite distinct: evaluative feedback depends entirely on the action taken, whereas instructive feedback is independent of the action taken. 强化学习模型所给出的反馈完全取决于之前采取的行动（取得的效果），但是有监督学习所给出的反馈则与所采取的行动完全无关。

2.1 k臂老虎机问题

问题综述，什么是k臂老虎机问题：You are faced repeatedly with a choice among k different options, or actions. After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period, for example, over 1000 action selections, or time steps.
balance exploration and exploitation. 本章讨论的主要内容是如何在exploration（随机选择下一步的行动）和exploitation（根据现有经验选取价值期望最大的行动）之间做出权衡。

2.2 行为价值方法（Action-value Methods）

对于行动a获得奖励(reward)的期望，即行动a的价值(value)可以表示为
在有限的抽样次数中，我们对行为价值的估计可以表示为

对行动a的价值估计表示为历次奖励的均值
(1) 当行为价值估计的分母为0，也就是从未采取行动 $A_t$ ，可以设置估计值的默认值为0
(2) 如果分母趋近无穷大，根据大数定理，采样次数无限多时样本的均值等于期望。
$q_*(a) = Q_t(a)$
使用贪心算法的思想选取行动(exploitation)的数学描述形式为

即，选取价值估计值最大的行为方式a。
如果有多个行为方式(action)的价值估计相同，可以从中随机选取一个。
关于如何在exploration&exploitation之间权衡，可以使用 $ϵ−greedy\epsilon-greedy$ 方法。也就是以 $(1−ϵ)(1-\epsilon)$ 的概率选取最优的方法，而以一个较小的概率 $ϵ\epsilon$ 从所有可能的行为模式(action)中等可能的抽样。这样可以保证当抽样的总次数足够多时，使所有行为模式的价值估计都收敛为对应的价值。
以上讨论只是一种近似的假想没有考虑这种方法的效率问题。

2.3 一个10-armed测试

在这里插入图片描述
10个行为方式选项（Action）的奖励（Reward）分布均遵循方差为1的正态分布，均值处即为该行为方式的价值（value） $q_*$ 。

通过观察第一幅图我们得知，标号为3的行为(Action)可以获取最大的奖励(Reward)，1.5。

$ϵ=0\epsilon=0$ 时，学习模型(agent)很快就停止探索（exploration），容易陷入局部最优
$ϵ=0.1\epsilon=0.1$ 时，学习模型可以很快找到所有奖励中的最大值，但所获得奖励的期望最大为 $1.5×(1−ϵ)1.5×(1-\epsilon)$ ，即最大值的90%。
$ϵ=0.01\epsilon=0.01$ 时，因为exploration的概率较小，模型找到最大奖励的用时较长，但可以预见，如果问题是固定、确知的（stationary and deterministic），最终可以比 $ϵ=0.1\epsilon=0.1$ 时取得更好的效果。

$ϵ\epsilon$ 最优值的选取与问题自身的特性有关，如果奖励额度的方差为0，那么 $ϵ=0\epsilon=0$ 时反而能更快地收敛。

2.4 优化“学习成本” (Incremental Implementation)

正如上文所述，我们使用某种行为方式（action）获得奖励（reward）的均值作为这种行为价值（value）的期望。简化 $Q_t(a)$ 的表达方式可以得到
在这里插入图片描述
根据这种基于“记忆”的学习方式，我们不难发现一个问题：随着学习过程的进行，模型记录的状态在不断增多，对存储空间和计算资源的消耗都是不但增加的。尤其是对价值的估计（ $Q_n$ ）。下面介绍对求解期望的优化方法

在这里插入图片描述这个式子从感性上不难理解：在进行第 $n + 1$ 次价值评估时，总共进行了 $n$ 次抽样，将前 $n$ 次的评估结果( $Q_n$ )作为基础，叠加上本次抽样结果对前 $(n - 1)$ 次抽样均值的影响。该推导过程的倒数第三行就是利用前 $(n - 1)$ 次抽样的均值求累加和的步骤。
经过优化后的k臂老虎机问题可以用下图来总结。

在这里插入图片描述

2.5 适应环境的变化（Tracking a Nonstationary Problem）

为了能够适应环境变化，我们应该将更多的精力放在最新的抽样结果上。按照2.4中价值估计的计算方式不难发现
$Qn+1=1n(Rn−Qn)+QnQ_{n+1}=\frac{1}{n}{(R_n-Q_n)}+Q_n$
随着学习次数的增加 $n$ 会逐渐增大，即价值估计的变化率会逐渐降低。对于一个价值期望稳定的问题， $Q_n$ 会逐渐收敛到期望的真实值。但环境总是不断变化的，为了保证模型能更好的适应新环境，学习的过程更应该“着眼当下”。
在这里插入图片描述
$R_n-Q_n]$ ：现实（Reward）与理想（Value）之间的差距。
$a$ ： $(0, 1]$ 之间的常数，叫做步长或学习率，当 $a = 1$ ，学习结果就会完全取决于最后一次采样的结果 $R_n$ 。相反，当 $a = 0$ 则完全不会进行学习，这已经违背了初衷，因此 $a = 0$ 无意义。
在这里插入图片描述其中，参数的累加和为1，证明如下：
$(1−a)n+∑i=1na(1−a)n−i=1(1-a)^n+\sum_{i=1}^na(1-a)^{n-i}=1$
$证:(1−a)n+a×1−(1−a)na=1证:(1-a)^n+a×\frac{1-(1-a)^n}{a}=1$
我们观察，在包括初始值 $Q_1$ 的所有样本内，价值估计中占比最高的永远是最新的采样值 $R_n$ ，即（ $a×R_n$ ），其他样本的权重随时间的“久远”程度以 $1-a)^t$ 指数衰减。这与艾宾浩斯遗忘曲线的趋势是一致的。
在这里插入图片描述

收敛性问题

我们以符号 $a_n(n)$ 表示第n次参数更新的学习率。利用随即近似理论中的结论， $a_n(n)$ 必须满足：
在这里插入图片描述
才能保证学习的结果最终收敛。显然，任何以常数作为步长的取值都不符合条件。对于一个价值期望不断发生变化的问题，不收敛反而有助于对环境的适应。对比之前 $an(n)=1na_n(n)=\frac1n$ 的应用场景很容易发现其中的不同，而 $an(n)=1na_n(n)=\frac1n$ 是符合收敛条件的。

2.6 优化初始值

对于行为价值模型（“求奖励（reward）平均值”来获得价值期望）的学习方式，任何行为模式（action）的初始化价值偏差 $Q_1(a)$ 将在学习过程中随第一个 $R_a$ 的获取而消除。但是对于使用常数 $a$ 作为学习率的方式（该种模型可以更好适应环境变化）初始值 $Q_1(a)$ 的影响不会消除，但是会随着学习过程而被逐渐“遗忘”（权重降低）。

制定初始值的优点

给模型定义初始值的优点是可以人工引入一些先验知识，来加速学习的过程。
激励模型进行探索（exploration)，对于行为价值模型，如果给定所有可能的行为方式一个远高于价值（value）期望的初始值（不可能通过任何行为方式获得如此高的奖励），那么模型在学习过程中会遍历所有可能的情况。试想：学习刚开始时，模型尝试每一种行为都会得到一个比初始值预期更低的奖励值，按照贪心算法的思想，在受挫之后，模型会不断尝试其余高期望的行为模式，直到把所有情况都试个遍，才明白现实如此残酷。但在最终收敛之前，模型已经遍历所有可能，有助于提高模型学习结果的准确性，加速了学习过程。

可以看到，高初始值所带来的效果起初比一般方法要差一些，因为强制模型进行了更多的探索（exploration）但长远来看是对学习效果有利的。

高初始值激励方式的局限性

（1）不适用于环境会发生变化的应用场景，初始化起到的效果是一次性的。
（2）不适合状态（state）集合无穷大的情况。
（3）有效性与学习模型相关，起码在上文介绍的额sample-average模型种是有效的。

2.7 追求更高确信度的行为选择（Upper-Confidence-Bound Action Selection）

上文介绍的普通 $ϵ−greedy\epsilon-greedy$ 选择策略，在贪心算法思想上增加行为模式选择的随机性，以探索更多可能的行为模式，提高模型的适应性。但是这种随机选择是漫无目的的。我们更需要去探索（exploration）那些几乎没有被使用过的行为模式，它们具有更多的不确定性。以下是基于上述思想的数学表达。

在这里插入图片描述
可以看到 $At=argmaxa[Qt(a)]A_t=\mathop{argmax}\limits_{a}[Q_t(a)]$ 所表达的就是贪心算法思想。根号内的偏置项用于衡量行为 $a$ 的不确定性（是否很少被眷顾）。 $t$ 表示模型行为模式决策的总次数而 $N_t(a)$ 则代表行为模式a被采用的次数。显而易见，当行为模式 $a$ 被较少采用时，其不确定性就会增加。常数c则用于调整模型对探索(exploration)的偏好程度，作用与 $ϵ−greedy\epsilon-greedy$ 模型的 $ϵ\epsilon$ 类似。

优势

（1）UCB（Upper-Confidence-Bound）可以保证所有行为模式都以更合理的频率被采用，能更好的对抗噪声和随机性。
（2）为那些有低价值期望的行为模式更高的执行机会（隔一段时间就能被重新翻牌子）。
在这里插入图片描述

缺陷

（1）不能处理状态空间非常大的问题。

2.8 梯度算法（Gradient Bandit Algorithms）

In this section we consider learning a numerical preference for each action
a, which we denote Ht(a). The larger the preference, the more often that action is taken, but the preference has no interpretation in terms of reward. 这部分中，我们假定学习结果是对某种行为方式（action）的偏好程度 $H_t(a)$ ，偏好程度越高，被采用的几率越大。与上文讨论的sample-average策略不同，这种偏好程度与行为模式获得的奖励（reward）无关。
Only the relative preference of one action over another is important; if we add 1000 to all the action preferences there is no effect on the action probabilities, which are determined according to a soft-max distribution. 只有行为模式之间偏好 $H_t(a)$ 差距是有意义的。
soft-max distribution. 使用soft-max计算行为模式a被采用得到概率:

符号 $πt(a)\pi_t(a)$ 用于表示行为模式a（action）在时间t时被采用的概率。
行为模式偏好的更新方式为其中 $Rt‾\overline{R_t}$ 是期望的均值，可以通过sample-average模型或是Nonstationary Problem的处理方式得到。

如何理解

a stochastic approximation to gradient ascent. 偏好的更新方式是对价值期望进行梯度上升的随机近似。

下面是梯度上升的表达式
在这里插入图片描述
式中 $E[R_t]$ 是指对 $t$ 时刻将获取的奖励 $R_t$ 的期望值
问题是：我们无从得知行为x的价值 $q_*(x)$ 。

证明等效性

在这里插入图片描述

证明上面两组公式的等效性， $H_t(a)$ 的部分是一样的，来看微分部分:
$∂E[Rt]∂Ht(a)=∂∂Ht(a)∑xπt(x)q∗(x)=∑xq∗(x)∂πt(x)∂Ht(a)=∑xq∗(x)∂πt(x)∂Ht(a)−0=∑xq∗(x)∂πt(x)∂Ht(a)−Rt‾∂∑xπt(x)∂Ht(a)=∑x[q∗(x)−Rt‾]∂πt(x)∂Ht(a)=∑xπt(x)[q∗(x)−Rt‾]∂πt(x)∂Ht(a)πt(x)=E{[R(At)−Rt‾]∂πt(At)∂Ht(a)}πt(At)①=E[R(At)−Rt‾][πt(At)(1a=At−πt(a))]πt(At)②=E{[R(At)−Rt‾][1a=At−πt(a)]}≈[R(At)−Rt‾][1a=At−πt(a)]③\frac{\partial{E[R_t]}}{\partial{H_t(a)}}=\frac{\partial}{\partial{H_t(a)}}\sum_{x}{\pi_t(x)q_*(x)} \\=\sum_{x}q_*(x)\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}} \\=\sum_{x}q_*(x)\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}}-0 \\=\sum_{x}q_*(x)\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}}-\overline{R_t}\frac{\partial\sum_{x}{{\pi_t(x)}}}{\partial{H_t(a)}} \\=\sum_{x}[q_*(x)-\overline{R_t}]\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}} \\=\sum_x{\frac{\pi_t(x)[q_*(x)-\overline{R_t}]\frac{\partial{{\pi_t(x)}}}{\partial{H_t(a)}}}{\pi_t(x)}} \\={{\frac{E\{[R(A_t)-\overline{R_t}]\frac{\partial{{\pi_t(A_t)}}}{\partial{H_t(a)}}\}}{\pi_t(A_t)}}}\qquad① \\=E{\frac{[R(A_t)-\overline{R_t}][\pi_t(A_t)(1_{a=A_t}-\pi_t(a))]}{\pi_t(A_t)}}\qquad② \\=E\{{{[R(A_t)-\overline{R_t}][1_{a=A_t}-\pi_t(a)]}}\} \\\approx{{[R(A_t)-\overline{R_t}][1_{a=A_t}-\pi_t(a)]}}\qquad③$
① 因为行为模式a的价值 $q_x(a)$ 未知，价值的期望 $∑x[πt(x)q∗(x)]\sum_x{[\pi_t(x)q_*(x)]}$ 可以用奖励的期望 $E[R(A_t)]$ 代替。
② $∂πt(At)∂Ht(a)=[πt(At)(1a=At−πt(a))]\frac{\partial{{\pi_t(A_t)}}}{\partial{H_t(a)}}=[\pi_t(A_t)(1_{a=A_t}-\pi_t(a))]$ 是soft-max函数微分的性质。
③ 随机梯度上升思想，使用对样本的多次取样来代替均值。
将推导的结果带入原式即可证明等效性。

2.9 关联（上下文）搜索 Associative Search

关联搜索是多臂老虎机问题和完全强化学习的过渡。它与完全强化学习的相似之处在于模型需要根据情景（上下文）自行学习执行策略，注意这里的行为策略是policy而不是action。关联搜索与多臂老虎机问题的相似之处是每一次决定仅影响当前获取的奖励（reward)，但是如果模型的选择将影响下一步的状态和奖励，这就变成了完全强化学习问题（例如下棋）。

2.10 总结

The " $ϵ−greedy\epsilon-greedy$ methods choose randomly a small fraction of the time.
UCB methods choose deterministically but achieve exploration by subtly favoring at each step the actions that have so far received fewer samples.
Gradient bandit algorithms estimate not action values, but action preferences, and favor the more preferred actions in a graded, probabilistic manner using a soft-max distribution.
The simple expedient of initializing estimates optimistically causes even greedy methods to explore significantly.