15、贝叶斯多臂老虎机算法扩展与先验分布设定方法探讨-优快云博客

本文链接：https://blog.youkuaiyun.com/js777/article/details/154158552

贝叶斯多臂老虎机算法扩展与先验分布设定方法探讨

贝叶斯多臂老虎机算法的扩展及应用

贝叶斯多臂老虎机（Bayesian Bandits）算法以其简单性而易于扩展，以下是几种可行的扩展方式：
1. 最小概率选择 ：当关注最小概率时（例如奖品是不好的情况），只需选择 B = argmin Xb 并继续操作。
2. 添加学习率 ：考虑到基础环境可能随时间变化，标准的贝叶斯多臂老虎机算法虽能自我更新，但为了使其更快地适应变化环境，可在更新时添加学习率项。更新公式如下：

self.wins[ choice ] = rate*self.wins[ choice ] + result
self.trials[ choice ] = rate*self.trials[ choice ] + 1

- 当 `rate < 1` 时，算法会更快地遗忘之前的成功，对未知情况的探索压力增大。
- 当 `rate > 1` 时，算法会更冒险，更倾向于选择早期的获胜者，对环境变化的适应性较差。

分层算法 ：可以在较小的多臂老虎机算法之上设置一个贝叶斯多臂老虎机算法。假设有 N 个贝叶斯多臂老虎机模型，每个模型在某些行为上有所不同（例如不同的学习率参数，代表对环境变化的不同敏感度）。在这些 N 个模型之上，有另一个贝叶