强化学习

最新推荐文章于 2025-07-27 11:12:34 发布

左左张

最新推荐文章于 2025-07-27 11:12:34 发布

阅读量3.3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：强化学习

本文链接：https://blog.youkuaiyun.com/weixin_39986952/article/details/80545468

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文围绕强化学习展开，介绍了其通过奖赏与惩罚获取最优策略的目标。以K-摇臂赌博机为例，阐述了“探索—利用窘境”，并介绍了ϵ贪心算法和Softmax方法。对于多步强化学习任务，在模型已知时，可基于动态规划进行策略评估、改进，通过策略迭代和值迭代寻优。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习

2018/6/2

1.引言

强化学习的目标是要通过奖赏与惩罚来对当前的问题得到一个最好的解决策略，对好的策略进行奖赏，对坏的策略进行惩罚，不断的强化这个过程，最终得到一个最好的策略。

2.K-摇臂赌博机

“K-摇臂赌博机”是单步强化学习任务的一个理想模型，如下图所示

这里写图片描述

该机器共有k各摇臂（图中为5个），每次只能选择摇其中一个，每个摇臂会以各自一定的概率分布掉金币，我们需要做的是，在有限的摇臂次数下，寻找一种策略能够使我们获得的金币累积奖励最大。想要最大化单步奖赏，需要考虑两个方面：一是知道每个动作带来的奖赏，二是选择执行奖赏最大的那个动作。一般来讲，动作带来的奖赏是来自一个概率分布，仅通过一次尝试并不能确切地获得平均奖赏值。

关于摇臂赌博机我们可以有两种思路：第一种就是每次再选择时都去利用摇过的摇臂中掉金币最多的那个，这种策略可以使我们保守的获得相对较多的金币，但很可能使我们错过那些还没有被摇过的摇臂中掉金币更多的。第二种思路就是把每一个摇臂都摇一次，这样就可以知道哪个掉金币平均值最多，然而我们的摇臂次数是有限的，这样做的弊端在于使我们用了较多的机会去摇那些掉金币少的摇臂。

上面的第一种思路称为“利用”，第二种思路称为“探索”。由于总的摇臂次数是有限的，所以“利用”和“探索”之间是存在矛盾的，这就是强化学习种所面临的“探索—利用窘境”。所以，想要最后得到最多的累积金币，我们需要在“利用”和“探索”之间寻找一个平衡。

3. $\epsilon 贪心算法$

前面提到，想要使累计奖赏值最大，就要在探索和利用之间做出平衡和选择。 $\epsilon$ 贪心算法就是在每次进行选择摇臂时，以 $\epsilon$ 的概率进行探索，即在所有的摇臂中随机选择一个，以 $1-\epsilon$ 的概率进行利用，即选择所有摇臂中已知奖赏均值最大的那一个（若不唯一，随机选择一个即可）。

用 $Q(k)$ 表示摇臂 $k$ 的平均奖赏，若摇臂 $k$ 已被选择 $n$ 次，每次得到的奖赏分别为 $v_1,v_2,...,v_n$ ，则第 $n$ 次后的平均奖赏为：

Q (k) = \frac{1}{n} \sum_{i = 1}^{n} v_{i}

$Q(k)=\frac 1 n \sum_{i=1}^nv_i$ （1）

为了简化每次的存储数据量，用增量的方式表示均值 $Q(k)$ , 用下标表示该摇臂尝试的次数。则有，

Q0(k)=0Q0(k)=0 $Q_0(k)=0$

对任意的 $n\gneq1$ , 若第 $n-1$ 次尝试后的平均奖赏为 $Q_{n-1}(s)$ ,则在第 $n$ 次尝试并获得奖赏 $v_n$ 后的平均奖赏为，

Qn(k)=1n((n−1)Qn−1(k)+vn)Qn(k)=1n((n−1)Qn−1(k)+vn) $Q_n(k)=\frac 1n( (n-1)Q_{n-1}(k)+v_n)$

Qn(k)=Qn−1(k)+1n(vn−Qn−1(k))Qn(k)=Qn−1(k)+1n(vn−Qn−1(k)) $Q_n(k)=Q_{n-1}(k)+\frac 1 n (v_n-Q_{n-1}(k))$ . (2)

经过前面的铺垫，下面给出 $\epsilon$ 贪心算法的实现流程：

这里写图片描述
讨论探索概率 $\epsilon$ 的选择，以及其对算法实现的影响：

如果摇臂奖赏的不确定性较大，需要较多次数的探索，此时 $\epsilon$ 的值需要较大一些；
如果摇臂奖赏的不确定性较小，分布比较集中，少量的尝试就可以近似得到分布的特点，此时 $\epsilon$ 应较小一些；
经验中，通常会令 $\epsilon$ 是较小的常数，比如0.1或者0.001，如果尝试次数非常大，一段时间内摇臂的奖赏就可以很好的近似出来，这样随着摇臂次数增多，探索的次数可以减小，即令 $\epsilon$ 随着尝试次数的增加而减小，例如令 $\epsilon=1/\sqrt{t}$ ；

4.Softmax方法

Softmax方法是基于概率选择下一次的摇臂序号，探索和利用同时选择。若各摇臂的平均奖赏相当，则选取各摇臂的概率也相当；若某些摇臂的平均奖赏明显高于其他摇臂，则它们被选取的概率也明显更高。其中摇臂对应的选择概率是基于Boltzmann分布的：

P(k)=eQ(k)τ∑Ki=1eQ(i)τP(k)=eQ(k)τ∑i=1KeQ(i)τ $P(k)=\frac {e^{Q(k) \over \tau} } {\sum_{i=1}^Ke^{Q(i)\over \tau}}$ （3)

其中， $Q(i)$ 表示摇臂 $i$ 的当前平均奖赏； $\tau$ 称为“温度”,它是算法实现中的关键参数：

$\tau$ 越小，则平均奖赏高的摇臂被选取的概率越高， $\tau$ 趋于0时Softmax将趋于”仅利用”；
$\tau$ 越大，则各个摇臂被选取的概率越趋同， $\tau$ 趋于无穷大时Softmax将趋于“仅探索”。

下面给出Softmax算法的实现流程：

这里写图片描述
$\epsilon$ 贪心算法和Softmax算法具体选哪一个，要在具体问题里面去比较。

对于离散状态空间、离散动作空间上的多步强化学习任务，一种直接的办法是将每个状态上动作的选择看作一个 $K-$ 摇臂赌博机问题，用强化学习任务的累计奖赏来代替 $K-$ 摇臂赌博机算法中的奖赏函数，即可将赌博机算法用于每个状态：对每个状态分别记录各个动作的尝试次数、当前平均累计奖赏等信息，基于赌博机算法选择要尝试的动作。当然上面是一种非常简化的方法，没有考虑到强化学习任务中马尔科夫决策过程的结构。

5.基于模型的学习

模型介绍：

考虑多步强化学习任务，其对应的马尔科夫决策过程四元组 $E=<X,A,P,R>$ 已知，

其中：

$X:$ 环境状态集

$A:$ 动作集

$P:$ 状态转移函数

$R:$ 奖励函数 $X\times A \rightarrow R$

未知：策略 $\pi(x,a)$ 即状态 $x$ 下选择动作 $a$ 的概率

策略评估：

在模型已知时，对任意策略 $\pi$ 都能估计出该策略带来的期望累计奖赏。

状态值函数： $V^\pi(x)$ 表示从状态 $x$ 出发，使用策略 $\pi$ 所带来的累计奖赏；
状态—动作值函数： $Q^\pi(x,a)$ 表示从状态 $x$ 出发，执行动作 $a$ 后再使用策略 $\pi$ 带来的累计奖赏。

根据定义有：

$V^\pi _T(x)=E_\pi(\frac 1 T \sum_{t=1}^Tr_t|x_0=x)$ , T步累积奖赏（4）

$V^\pi _\gamma(x)=E_\pi(\frac 1 T \sum_{t=0}^\infty \gamma ^tr_{t+1}|x_0=x)$ $\gamma$ 折扣累积奖赏（5）

$Q_T^\pi(x,a)=E_\pi(\frac 1 T \sum_{t=1}^T r_t|x_0=x,a_0=a)$ （6）

$Q_\gamma^\pi(x,a)=E_\pi(\frac 1 T \sum_{t=0}^\infty r_{t+1}|x_0=x,a_0=a)$ （7）

根据马氏性，系统下一时刻的状态仅由当前状态决定，而不依赖于以往任何状态，可以将值函数（式（4）写成更为简单的递归形式：

(8)

类似的，对于 $\gamma$ 折扣累积奖赏有：

（9）

从式（8）中的结果，可以看到，用递归等式来计算值函数，实际上转换为动态规划算法。从值函数的初始值 $V_0^\pi$ 出发，通过一次迭代能计算出每个状态的但不奖赏 $V_1^\pi$ ,进而从单步奖赏出发，通过一次迭代计算出两部累积奖赏 $V_2^\pi$ ,同理，对于 $T$ 步累积奖赏，只需迭代 $T$ 轮就能精确地求出值函数。

下面给出策略评估算法的实现流程：

策略评估算法流程

对于 $V_\gamma^\pi$ ，当t很大时， $\gamma^t \rightarrow 0$ , 也可以用上面类似的算法。可以设置一个阈值 $\theta$ ,若在执行一次迭代后值函数的改变小于 $\theta$ 则算法停止；即算法第4行换成:

maxxϵX|V(x)−V′(x)|<θmaxxϵX|V(x)−V′(x)|<θ $max_{x \epsilon X}|V(x)-V'(x)|<\theta$

有了状态值函数V，就可以直接计算出状态—动作值函数：

(10)

策略改进

在对某个策略的累积奖赏进行评估后，如果发现它并非最优策略，则需要对其进行改进，理想的策略应该能最大化累积奖赏，即

π∗=argπmax∑xϵXVπ(x)π∗=argπmax∑xϵXVπ(x) $\pi ^*=arg_\pi max \sum_{x\epsilon X}V^\pi(x)$

最优策略所对应的值函数 $V^*$ 称为最优值函数，即

∀xϵX:V∗(x)=Vπ∗(x)∀xϵX:V∗(x)=Vπ∗(x) $\forall x \epsilon X: V^*(x)=V^{\pi ^*}(x)$

对式（8），（9）做改动，将对动作的求和改为取最优：

这里写图片描述

上面的等式称为最优Bellman等式，其唯一解是最优值函数。

其中，

V∗(x)=maxaϵAQπ∗(x,a)V∗(x)=maxaϵAQπ∗(x,a) $V^*(x)=max_{a \epsilon A}Q^{\pi ^*}(x,a)$

带入式（10），可得最优状态-动作值函数

（11）

值函数对于策略的每一点改进都是单调递增，因此对于当前策略 $\pi$ ,可将其改进为

π′(x)=argaϵAmaxQπ(x,a)π′(x)=argaϵAmaxQπ(x,a) $\pi '(x)=arg_{a \epsilon A}maxQ^\pi(x,a)$

直到 $\pi'$ 与 $\pi$ 一致、不再发生变化，此时就满足了最优Bellman等式，及找到了最优策略。

策略迭代与值迭代

根据前面的策略评估和策略改进，我们知道了如何评估一个策略的值函数，并在策略评估后如何改进至最优策略。将二者结合起来，即是对策略进行寻优的方法：从一个初始策略（可以是随机策略）开始，先进行策略评估，然后改进策略，评估改进的策略，再进一步改进策略，…… 不断迭代进行策略评估和改进，直达策略收敛，不再改变为止。这种做法即称为“策略迭代”

下面给出基于T步累积奖赏策略评估的策略迭代算法流程：

这里写图片描述