【强化学习】多臂老虎机

本文围绕强化学习中的k臂老虎机问题展开。介绍了强化学习与机器学习的区别,阐述了动作-价值方法、贪心与ε-贪心策略等。通过10臂测试平台对比不同方法,还提及增量式实现、跟踪非平稳问题等内容,最后探讨关联搜索任务。

简介

强化学习与机器学习最大的不同,在于前者的训练信号是用来评估给定动作的好坏的,而不是通过给出正确动作范例来进行直接的指导。“评估性反馈”,表明当前采取的动作的好坏程度,但无法确定最好和最坏。“指导性反馈”表示应该选择的正确动作是什么,这是监督学习的基本方式,被广泛用于模式分类、人工神经网络等。

k臂老虎机问题

假设要重复地在k个选项中进行选择。每次做出选择之后,都会得到一定数值的收益,收益值由所选择的动作的平稳概率分布产生。每一次选择相当于拉动老虎机的一个操纵杆,通过多次的重复动作选择,你要学会将动作集中在最好的操作杆上,从而最大化你的奖金。
在这里插入图片描述
在这个问题中,每个动作被选择时都有一个期望或者平均收益,可以称之为动作的“价值”,收益和价值是不一样的,收益一般被认为是短期的,而价值是长期的。假设在某时刻t选择的动作记作 A t A_t At,对应的收益记作 R t R_t Rt。任一动作 a a a对应的价值,记作 q ∗ ( a ) q_*(a) q(a),则给定动作 a a a时,收益的期望是:
在这里插入图片描述

假设 R t R_t Rt未知,可以先做估计。将动作 a a a在时刻 t t t时的价值估计记作 Q t ( a ) Q_t(a) Qt(a),我们希望它接近 q ∗ ( a ) q_*(a) q(a)

如果持续对动作的价值进行估计,那么在任一时刻都会至少有一个动作的估计价值是最高的,我们将这些对应最高估计价值的动作称为贪心的动作。当选择了这些动作时,我们称为“开发”,否则,称为“探索”。为了获得大量的收益,强化学习智能体一定会喜欢那些在过去为它有效产生过收益的动作。但为了发现高收益动作,往往需要尝试为选择过的动作。所谓“开发”已有的经验

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值