bandit算法(3)--UCB算法

引言

前面已经介绍了两种bandit算法—ϵ\epsilonϵ-greedy算法和softmax算法。现在我们来总结下这两种算法的共有属性:

  • 两种算法在每一轮选择时,默认都是选择到目前为止最好的臂;

  • 除此之外,算法会尝试去探索一些目前看起来不是最好的臂:
          -ϵ\epsilonϵ-greedy算法探索的时候完全是随机的。
          -softmax算法探索是基于到当前时刻臂的收益概率。收益概率越高,选择的概率越高。

  • 两种算法都能够通过随着时间动态修改基本参数来实现更好的性能。

     这种随机性,或者仅仅考虑收益回报的算法有一个很明显的

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值