《强化学习》第二版 阅读随笔2

本文探讨了强化学习中的多臂老虎机问题,讲解了如何平衡探索与利用,介绍了行为价值方法、ϵ-贪婪策略、UCB行动选择及梯度算法,并分析了不同策略在学习过程中的表现。

第二章——多臂老虎机(Multi-armed Bandits)

  1. The most important feature distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the actions taken rather than instructs by giving correct actions. 使强化学习与其他深度学习模型区分开来的是它会使用学习所得的信息对所采取的行动进行评估,而不是直接给出正确的答案。这其中包含了类似于思考的成分,而有监督学习所得到的卷积神经网络更像是一种直觉或本能。
  2. These two kinds of feedback are quite distinct: evaluative feedback depends entirely on the action taken, whereas instructive feedback is independent of the action taken. 强化学习模型所给出的反馈完全取决于之前采取的行动(取得的效果),但是有监督学习所给出的反馈则与所采取的行动完全无关。

2.1 k臂老虎机问题

  1. 问题综述,什么是k臂老虎机问题:You are faced repeatedly with a choice among k different options, or actions. After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period, for example, over 1000 action selections, or time steps.
  2. balance exploration and exploitation. 本章讨论的主要内容是如何在exploration(随机选择下一步的行动)和exploitation(根据现有经验选取价值期望最大的行动)之间做出权衡。

2.2 行为价值方法(Action-value Methods)

  1. 对于行动a获得奖励(reward)的期望,即行动a的价值(value)可以表示为
    在这里插入图片描述
  2. 在有限的抽样次数中,我们对行为价值的估计可以表示为
    在这里插入图片描述
    在这里插入图片描述
    对行动a的价值估计表示为历次奖励的均值
    (1) 当行为价值估计的分母为0,也就是从未采取行动AtA_tAt,可以设置估计值的默认值为0
    (2) 如果分母趋近无穷大,根据大数定理,采样次数无限多时样本的均值等于期望。
    q∗(a)=Qt(a)q_*(a) = Q_t(a)q(a)=Qt(a)
  3. 使用贪心算法的思想选取行动(exploitation)的数学描述形式为
    在这里插入图片描述
    即,选取价值估计值最大的行为方式a。
    如果有多个行为方式(action)的价值估计相同,可以从中随机选取一个。
  4. 关于如何在exploration&exploitation之间权衡,可以使用ϵ−greedy\epsilon-greedyϵgreedy方法。也就是以(1−ϵ)(1-\epsilon)(1ϵ)的概率选取最优的方法,而以一个较小的概率ϵ\epsilonϵ从所有可能的行为模式(action)中等可能的抽样。这样可以保证当抽样的总次数足够多时,使所有行为模式的价值估计都收敛为对应的价值。
  5. 以上讨论只是一种近似的假想没有考虑这种方法的效率问题。

2.3 一个10-armed测试

在这里插入图片描述
10个行为方式选项(Action)的奖励(Reward)分布均遵循方差为1的正态分布,均值处即为该行为方式的价值(value)q∗q_*q
在这里插入图片描述
通过观察第一幅图我们得知,标号为3的行为(Action)可以获取最大的奖励(Reward),1.5。

  1. ϵ=0\epsilon=0ϵ=0时,学习模型(agent)很快就停止探索(exploration),容易陷入局部最优
  2. ϵ=0.1\epsilon=0.1ϵ=0.1时,学习模型可以很快找到所有奖励中的最大值,但所获得奖励的期望最大为1.5×(1−ϵ)1.5×(1-\epsilon)1.5×(1ϵ),即最大值的90%。
  3. ϵ=0.01\epsilon=0.01ϵ=0.01时,因为exploration的概率较小,模型找到最大奖励的用时较长,但可以预见,如果问题是固定、确知的(stationary and deterministic),最终可以比ϵ=0.1\epsilon=0.1ϵ=0.1时取得更好的效果。

ϵ\epsilonϵ最优值的选取与问题自身的特性有关,如果奖励额度的方差为0,那么ϵ=0\epsilon=0ϵ=0时反而能更快地收敛。

2.4 优化“学习成本” (Incremental Implementation)

正如上文所述,我们使用某种行为方式(action)获得奖励(reward)的均值作为这种行为价值(value)的期望。简化Qt(a)Q_t(a)Qt(a)的表达方式可以得到
在这里插入图片描述
根据这种基于“记忆”的学习方式,我们不难发现一个问题:随着学习过程的进行,模型记录的状态在不断增多,对存储空间和计算资源的消耗都是不但增加的。尤其是对价值的估计(QnQ_nQn)。下面介绍对求解期望的优化方法

在这里插入图片描述这个式子从感性上不难理解:在进行第n+1n+1n+1次价值评估时,总共进行了nnn次抽样,将前nnn次的评估结果(QnQ_nQn)作为基础,叠加上本次抽样结果对前(n−1)(n-1)(n1)次抽样均值的影响。该推导过程的倒数第三行就是利用前(n−1)(n-1)(n1)次抽样的均值求累加和的步骤。
经过优化后的k臂老虎机问题可以用下图来总结。

在这里插入图片描述

2.5 适应环境的变化(Tracking a Nonstationary Problem)

为了能够适应环境变化,我们应该将更多的精力放在最新的抽样结果上。按照2.4中价值估计的计算方式不难发现
Qn+1=1n(Rn−Qn)+QnQ_{n+1}=\frac{1}{n}{(R_n-Q_n)}+Q_nQn+1=n1(RnQn)+Qn
随着学习次数的增加nnn会逐渐增大,即价值估计的变化率会逐渐降低。对于一个价值期望稳定的问题,QnQ_nQn会逐渐收敛到期望的真实值。但环境总是不断变化的,为了保证模型能更好的适应新环境,学习的过程更应该“着眼当下”。
在这里插入图片描述
[Rn−Qn][R_n-Q_n][RnQn]:现实(Reward)与理想(Value)之间的差距。
aaa(0,1](0, 1](0,1]之间的常数,叫做步长或学习率,当a=1a=1a=1,学习结果就会完全取决于最后一次采样的结果RnR_nRn。相反,当a=0a=0a=0则完全不会进行学习,这已经违背了初衷,因此a=0a=0a=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值