简介
强化学习与机器学习最大的不同,在于前者的训练信号是用来评估给定动作的好坏的,而不是通过给出正确动作范例来进行直接的指导。“评估性反馈”,表明当前采取的动作的好坏程度,但无法确定最好和最坏。“指导性反馈”表示应该选择的正确动作是什么,这是监督学习的基本方式,被广泛用于模式分类、人工神经网络等。
k臂老虎机问题
假设要重复地在k个选项中进行选择。每次做出选择之后,都会得到一定数值的收益,收益值由所选择的动作的平稳概率分布产生。每一次选择相当于拉动老虎机的一个操纵杆,通过多次的重复动作选择,你要学会将动作集中在最好的操作杆上,从而最大化你的奖金。

在这个问题中,每个动作被选择时都有一个期望或者平均收益,可以称之为动作的“价值”,收益和价值是不一样的,收益一般被认为是短期的,而价值是长期的。假设在某时刻t选择的动作记作 A t A_t At,对应的收益记作 R t R_t Rt。任一动作 a a a对应的价值,记作 q ∗ ( a ) q_*(a) q∗(a),则给定动作 a a a时,收益的期望是:

假设 R t R_t Rt未知,可以先做估计。将动作 a a a在时刻 t t t时的价值估计记作 Q t ( a ) Q_t(a) Qt(a),我们希望它接近 q ∗ ( a ) q_*(a) q∗(a)。
如果持续对动作的价值进行估计,那么在任一时刻都会至少有一个动作的估计价值是最高的,我们将这些对应最高估计价值的动作称为贪心的动作。当选择了这些动作时,我们称为“开发”,否则,称为“探索”。为了获得大量的收益,强化学习智能体一定会喜欢那些在过去为它有效产生过收益的动作。但为了发现高收益动作,往往需要尝试为选择过的动作。所谓“开发”已有的经验

本文围绕强化学习中的k臂老虎机问题展开。介绍了强化学习与机器学习的区别,阐述了动作-价值方法、贪心与ε-贪心策略等。通过10臂测试平台对比不同方法,还提及增量式实现、跟踪非平稳问题等内容,最后探讨关联搜索任务。
最低0.47元/天 解锁文章
1543

被折叠的 条评论
为什么被折叠?



