论文代码复现后会上传!
请对照原文进行阅读!
需要具备bandit基本知识以及马尔可夫链。(可参照reinforcement learning书的第一二三章)
摘要
文章研究了一个rested和restless的多player bandit问题。rested和restless的区别在于arm 的state变化,所研究系统主要由一个单一player和K个有限状态马尔可夫链(arms)组成。每个时间步,玩家选择M个arm,M小于等于K。以最大化reward或者最小化regret。restless multi-armed bandit可以被应用到OSA系统中。
证明了在马氏链状态转移概率的条件下,该算法随时间一致地达到对数后悔,并且这个后悔界也是最优的。
1.介绍
与普通的bandit问题类似,都是选择arm使得最后的reward最大或者regret最小,但不一样的是这里的arm是一个马尔可夫链,通俗点说是持续选择某个特定的arm一段时间,期间会有state的持续变化。
考虑两种情况,一种情况是马氏链的状态保持不变,除非它被play,另一种情况是马氏链的状态可以继续演化(根据可能不同的定律),而不管玩家的行为如何。
对于一个OSA问题,当信道相同且突发时,短视策略被证明是最优的,该问题被描述为一个restless bandit问题,每个信道被建模为一个两状态马尔可夫链(Gilbert-Elliot模型)。
本文首先研究了具有马尔可夫报酬的rested bandit问题。具体而言,我们证明了将UCB1算法直接扩展到多个游戏的情况(UCB1最初设计用于单个游戏的情况:M=1)会导致对restless bandit的对数后悔,并获得马尔可夫奖励。然后,我们使用rested和restless的强盗之间的关键区别来构造再生循环算法(RCA),该算法对restless强盗问题产生对数遗憾。该算法的构造允许我们将rested问题的证明作为一个自然的垫脚石,并简化了主要概念思想的表示。
2.问题信息及前言
对各种概念进行了预设定,具体设定请看原文,这里就不赘述了。
大致表达:
K:arm的数量
r:reward。不用的上下标有不一样的含义。
P:转移矩阵。
π:P的稳定分布。
μ:mean reward
假设arm M严格大于arm M+1
防止M与M+1之间有大量arm产生交换。(M是一次选择的arm 的数量)
regret函数:
3.分析多player rested bandit问题
UCB-M:就是将每次选择所有arm中indices最大的arm改为选择前M个大的arm。
4.分析多player resteless bandit问题
RCA-M:RCA的多arm版本,类似于UCB与UCB-M的区别。
在RCA-M的内部循环中类似于UCB-M的选择指标。
无论用户的action如何,每个arm的状态会随着时间的改变而变化。(沿着马尔可夫链)
RCA:如上图,RCA算法中将时隙分块,每一个块play相同的arm,在一个块中又分为三个子块:SB1,SB2,SB3。SB1是一直play arm直到出现一个特定的状态(记为gamma),SB2从出现这个gamma开始直到第二次出现gamma,SB3仅仅包含第二次出现的gamma的这个时隙。至此一个块结束。
伪代码:
RCA-M:类似于RCA的过程,在RCA中每个块是按照顺序进行的,在RCA-M中,多个块可以同时开始也可以同时结束,但在论文中的设定是,如果多个块在同一个时间点开始,那么他们的开始顺序是完全随机的。
5.实验
在常用的Gilbert-Elliot信道模型下模拟RCA-M。
r(i,1) = 1;r(i, 0) = 0.1
上述式子:arm在状态为1下的reward为1,在state=0的情况下reward为0;
在四中具有不同状态转移概率的环境中模拟了RCA-M
计算归一化遗憾值 R(n)/M