引言
前面已经介绍了两种bandit算法—ϵ\epsilonϵ-greedy算法和softmax算法。现在我们来总结下这两种算法的共有属性:
-
两种算法在每一轮选择时,默认都是选择到目前为止最好的臂;
-
除此之外,算法会尝试去探索一些目前看起来不是最好的臂:
-ϵ\epsilonϵ-greedy算法探索的时候完全是随机的。
-softmax算法探索是基于到当前时刻臂的收益概率。收益概率越高,选择的概率越高。
-
两种算法都能够通过随着时间动态修改基本参数来实现更好的性能。
这种随机性,或者仅仅考虑收益回报的算法有一个很明显的