【强化学习】多臂老虎机

原创

已于 2022-08-11 11:57:16 修改 · 772 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能

于 2021-05-27 17:36:30 首次发布

本文围绕强化学习中的k臂老虎机问题展开。介绍了强化学习与机器学习的区别，阐述了动作-价值方法、贪心与ε-贪心策略等。通过10臂测试平台对比不同方法，还提及增量式实现、跟踪非平稳问题等内容，最后探讨关联搜索任务。

简介

强化学习与机器学习最大的不同，在于前者的训练信号是用来评估给定动作的好坏的，而不是通过给出正确动作范例来进行直接的指导。“评估性反馈”，表明当前采取的动作的好坏程度，但无法确定最好和最坏。“指导性反馈”表示应该选择的正确动作是什么，这是监督学习的基本方式，被广泛用于模式分类、人工神经网络等。

k臂老虎机问题

假设要重复地在k个选项中进行选择。每次做出选择之后，都会得到一定数值的收益，收益值由所选择的动作的平稳概率分布产生。每一次选择相当于拉动老虎机的一个操纵杆，通过多次的重复动作选择，你要学会将动作集中在最好的操作杆上，从而最大化你的奖金。
在这里插入图片描述
在这个问题中，每个动作被选择时都有一个期望或者平均收益，可以称之为动作的“价值”，收益和价值是不一样的，收益一般被认为是短期的，而价值是长期的。假设在某时刻t选择的动作记作 $A_t$ ，对应的收益记作 $R_t$ 。任一动作 $a$ 对应的价值，记作 $q_*(a)$ ，则给定动作 $a$ 时，收益的期望是：
在这里插入图片描述

假设 $R_t$ 未知，可以先做估计。将动作 $a$ 在时刻 $t$ 时的价值估计记作 $Q_t(a)$ ，我们希望它接近 $q_*(a)$ 。

如果持续对动作的价值进行估计，那么在任一时刻都会至少有一个动作的估计价值是最高的，我们将这些对应最高估计价值的动作称为贪心的动作。当选择了这些动作时，我们称为“开发”，否则，称为“探索”。为了获得大量的收益，强化学习智能体一定会喜欢那些在过去为它有效产生过收益的动作。但为了发现高收益动作，往往需要尝试为选择过的动作。所谓“开发”已有的经验