贝叶斯多臂老虎机算法扩展与先验分布设定方法探讨
贝叶斯多臂老虎机算法的扩展及应用
贝叶斯多臂老虎机(Bayesian Bandits)算法以其简单性而易于扩展,以下是几种可行的扩展方式:
1. 最小概率选择 :当关注最小概率时(例如奖品是不好的情况),只需选择 B = argmin Xb 并继续操作。
2. 添加学习率 :考虑到基础环境可能随时间变化,标准的贝叶斯多臂老虎机算法虽能自我更新,但为了使其更快地适应变化环境,可在更新时添加学习率项。更新公式如下:
self.wins[ choice ] = rate*self.wins[ choice ] + result
self.trials[ choice ] = rate*self.trials[ choice ] + 1
- 当 `rate < 1` 时,算法会更快地遗忘之前的成功,对未知情况的探索压力增大。
- 当 `rate > 1` 时,算法会更冒险,更倾向于选择早期的获胜者,对环境变化的适应性较差。
- 分层算法 :可以在较小的多臂老虎机算法之上设置一个贝叶斯多臂老虎机算法。假设有
N个贝叶斯多臂老虎机模型,每个模型在某些行为上有所不同(例如不同的学习率参数,代表对环境变化的不同敏感度)。在这些N个模型之上,有另一个贝叶
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



