强化学习导论笔记:多臂赌博机问题(初稿)

前言:

接触强化学习最开始是参看的Sutton的本系列是参照Sutton的reinforcement learning an introduction这本书,刚开始读的时候感觉这本书晦涩难懂,非常不好理解。因此就找了几本中文的强化学习相关的书籍,阅读之后发现这些教材里很多东西都没讲清楚。折腾了一圈,最后还是决定仔细研读Sutton的这本教材。为了检验自己对于强化学习知识点的掌握情况,我就写了这个系列的博客。边看书,边记录。我一直认为,只有能把一个知识点讲清楚,才算是掌握了这个知识点。如有不对的地方,还希望有大神能够指正。

正文:

第二章通篇都在讲多臂赌博机问题。我们先来看什么是多臂赌博机问题?赌博机有K个摇臂,代表K个动作(action),每个时间步长(Step-size),我们会选择一个动作,每个动作都对应一个期望的奖励(reward),我们称此奖励为该动作的价值(value)。我们的目标是经过一段时间的选择,使累积的奖励最大。换言之,在每个时间步长里,我们选择一个动作,经过一段时间,是累积的奖励最大化。

在这个问题里,我们需要明确:这里提到的奖励(reward)是符合一个特定的概率分布。我们用$A_{t}$表示在时间t时要选择的动作,$R_{t}$表示在实践t选择该动作对应的奖励,$q_{*}(a)$表示动作a的价值。为了求得这个价值,我们提出如下公式:

注意,这里$q_{*}(a)$的值是一个期望。那么什么叫期望?期望就是概率的加权值。如果这点没有看懂,我们稍后还会提到。

 

在这个赌博机问题中,如果我们清楚的知道每个动作的价值(value),我们每次只需要选择具有最大价值的动作,就可以解决这个赌博机问题(这应该很好理解,你都知道选哪个动作好了,只需要每次都选那个最好的就能得到最优解)。但是呢,我们之前提到过,我们并不知道每个动作对应的确切价

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值