论文阅读——《Online Learning of Rested and Restless Bandits》

最新推荐文章于 2024-06-04 10:12:44 发布

苦行猿

最新推荐文章于 2024-06-04 10:12:44 发布

阅读量773

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习 bandit 文章标签：算法

本文链接：https://blog.youkuaiyun.com/qq_43922073/article/details/120522912

强化学习同时被 2 个专栏收录

1 篇文章

订阅专栏

bandit

1 篇文章

订阅专栏

该论文探讨了rested和restless多玩家带臂强盗问题，其中arm的状态由有限状态马尔可夫链描述。作者证明了一种算法在rested情况下的对数遗憾界限，并将其扩展到restless情况，提出再生循环算法（RCA-M），在restless环境中也能达到对数遗憾。实验部分在Gilbert-Elliot信道模型下验证了RCA-M的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文代码复现后会上传！

请对照原文进行阅读！

需要具备bandit基本知识以及马尔可夫链。（可参照reinforcement learning书的第一二三章）

摘要

文章研究了一个rested和restless的多player bandit问题。rested和restless的区别在于arm 的state变化，所研究系统主要由一个单一player和K个有限状态马尔可夫链（arms）组成。每个时间步，玩家选择M个arm，M小于等于K。以最大化reward或者最小化regret。restless multi-armed bandit可以被应用到OSA系统中。

证明了在马氏链状态转移概率的条件下，该算法随时间一致地达到对数后悔，并且这个后悔界也是最优的。

1.介绍

与普通的bandit问题类似，都是选择arm使得最后的reward最大或者regret最小，但不一样的是这里的arm是一个马尔可夫链，通俗点说是持续选择某个特定的arm一段时间，期间会有state的持续变化。

考虑两种情况，一种情况是马氏链的状态保持不变，除非它被play，另一种情况是马氏链的状态可以继续演化(根据可能不同的定律)，而不管玩家的行为如何。

对于一个OSA问题，当信道相同且突发时，短视策略被证明是最优的，该问题被描述为一个restless bandit问题，每个信道被建模为一个两状态马尔可夫链（Gilbert-Elliot模型）。

本文首先研究了具有马尔可夫报酬的rested bandit问题。具体而言，我们证明了将UCB1算法直接扩展到多个游戏的情况（UCB1最初设计用于单个游戏的情况：M=1）会导致对restless bandit的对数后悔，并获得马尔可夫奖励。然后，我们使用rested和restless的强盗之间的关键区别来构造再生循环算法（RCA），该算法对restless强盗问题产生对数遗憾。该算法的构造允许我们将rested问题的证明作为一个自然的垫脚石，并简化了主要概念思想的表示。

2.问题信息及前言

对各种概念进行了预设定，具体设定请看原文，这里就不赘述了。

大致表达：

K：arm的数量

r：reward。不用的上下标有不一样的含义。

P：转移矩阵。

π：P的稳定分布。

μ：mean reward

假设arm M严格大于arm M+1

$\mu ^{1}\geq \mu ^{2}\geq \mu ^{3}\geq \cdots \geq \mu ^{M}> \mu ^{M+1}\geq \cdots\geq \mu ^{K}$

防止M与M+1之间有大量arm产生交换。（M是一次选择的arm 的数量）

regret函数：

3.分析多player rested bandit问题

UCB-M：就是将每次选择所有arm中indices最大的arm改为选择前M个大的arm。

4.分析多player resteless bandit问题

RCA-M：RCA的多arm版本，类似于UCB与UCB-M的区别。

在RCA-M的内部循环中类似于UCB-M的选择指标。

无论用户的action如何，每个arm的状态会随着时间的改变而变化。（沿着马尔可夫链）

RCA：如上图，RCA算法中将时隙分块，每一个块play相同的arm，在一个块中又分为三个子块：SB1,SB2,SB3。SB1是一直play arm直到出现一个特定的状态（记为gamma），SB2从出现这个gamma开始直到第二次出现gamma，SB3仅仅包含第二次出现的gamma的这个时隙。至此一个块结束。