bandit算法(1)--epsilon-Greedy Algorithm(附代码)

本文介绍了ϵ-贪婪算法的基本概念及其在多臂老虎机问题中的应用。该算法通过设定概率ϵ来平衡“探索”与“利用”,以达到长期收益最大化的目的。

简述

     epsilon-Greedy算法( ϵ -贪婪算法)算是MBA(Multiarmed Bandit Algorithms)算法中最简单的一种。因为是MBA算法介绍的第一篇,所以在这里还是先简单说明下MBA。当然,要解释MBA,首先就得EE问题(Explore-Exploit dilemma)。
什么是EE问题呢? 这两个”E”,其中一个代表“exploit”,中文可译作“利用”;另一个代表“Explore”,中文可译作“探索”。结合一个例子可能更方便对EE,及MBA作一个简单的解释。如果之前已经有了解了的,建议直接跳过下面这段。
     现在假如你面前有n台老虎机,每台老虎机吐钱的概率不一样。你并不清楚每台老虎机的吐钱的概率分布。那么,如果你想要最大化收益,你该怎么办呢? 通常来说,你内心可能有两种好的决策:1、找到某一台收益还不错的老虎机,然后坚持摇这台老虎机;2、不断尝试探索新的老虎机。这个探索的过程中,可能发现更好的老虎机,当然也要承担摇差的老虎机带来损失的风险。显然,第一种对应的就是“exploit”,第二种对应“explore”,而bandit算法就是要解决这种EE问题,实现最大化收益。
      ϵ -贪婪算法是如何在“exploit”和“explore”之间实现权衡,以尽可能实现最大化收益的呢? 首先,从算法的名称我们知道,这是一种贪婪的算法。纯粹贪婪的算法,放到这种多臂老虎机的场景来看就是每次都选择当前那个最好的臂摇,即使从长远来看可能非常不好。那么, ϵ -贪婪算法和贪婪算法的区别在哪呢? 就像它的名字所展示的那样,区别仅仅就在这个 ϵ 。这个 ϵ

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值