bandit算法（1）--epsilon-Greedy Algorithm（附代码）

最新推荐文章于 2025-10-27 07:00:00 发布

原创

最新推荐文章于 2025-10-27 07:00:00 发布 · 2.3w 阅读

49 ·

CC 4.0 BY-SA版权

文章标签：

#bandit算法

本文介绍了ϵ-贪婪算法的基本概念及其在多臂老虎机问题中的应用。该算法通过设定概率ϵ来平衡“探索”与“利用”，以达到长期收益最大化的目的。

简述

     epsilon-Greedy算法（ $\epsilon$ -贪婪算法）算是MBA(Multiarmed Bandit Algorithms)算法中最简单的一种。因为是MBA算法介绍的第一篇，所以在这里还是先简单说明下MBA。当然，要解释MBA，首先就得EE问题（Explore-Exploit dilemma）。
什么是EE问题呢？这两个”E”，其中一个代表“exploit”,中文可译作“利用”；另一个代表“Explore”,中文可译作“探索”。结合一个例子可能更方便对EE,及MBA作一个简单的解释。如果之前已经有了解了的，建议直接跳过下面这段。
     现在假如你面前有n台老虎机，每台老虎机吐钱的概率不一样。你并不清楚每台老虎机的吐钱的概率分布。那么，如果你想要最大化收益，你该怎么办呢？通常来说，你内心可能有两种好的决策：1、找到某一台收益还不错的老虎机，然后坚持摇这台老虎机；2、不断尝试探索新的老虎机。这个探索的过程中，可能发现更好的老虎机，当然也要承担摇差的老虎机带来损失的风险。显然，第一种对应的就是“exploit”，第二种对应“explore”，而bandit算法就是要解决这种EE问题，实现最大化收益。
      $\epsilon$ -贪婪算法是如何在“exploit”和“explore”之间实现权衡，以尽可能实现最大化收益的呢？首先，从算法的名称我们知道，这是一种贪婪的算法。纯粹贪婪的算法，放到这种多臂老虎机的场景来看就是每次都选择当前那个最好的臂摇，即使从长远来看可能非常不好。那么， $\epsilon$ -贪婪算法和贪婪算法的区别在哪呢？就像它的名字所展示的那样，区别仅仅就在这个 $\epsilon$ 。这个 ϵ