1.问题定义
一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
这个经典问题一个核心的权衡问题:我们是应该 探索(exploration) 去尝试新的可能性,还是应该 守成(exploitation) ,坚持目前已知的最好选择?在多臂老虎机问题中,探索意味着去玩还没玩过的老虎机,但这有可能使你花太多时间和金钱在收益不好的机器上;而守成意味着只玩目前为止给你收益最好的机器,但这又可能使你失去找到更好机器的机会。
2. 解决算法
- 经典Bandit算法原理
- 朴素Bandit算法
- Epsilon-Greedy算法
- Thompson sampling算法
- UCB算法
参考:
相关知识点:
博客介绍了多臂赌博机问题,即赌徒面对一排吐钱概率不同的老虎机,如何选择以最大化收益,该问题核心是探索新可能与守成已知最优选择的权衡。还列举了经典Bandit算法、朴素Bandit算法等解决算法,以及相关知识点如伯努利实验、二项分布等。
7594

被折叠的 条评论
为什么被折叠?



