Bandit算法

最新推荐文章于 2025-05-13 20:35:58 发布

BUPT-WT

最新推荐文章于 2025-05-13 20:35:58 发布

阅读量4.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：算法

本文链接：https://blog.youkuaiyun.com/weixin_41362649/article/details/89040516

算法专栏收录该内容

19 篇文章

订阅专栏

本文介绍了Bandit算法，该算法源于多臂赌博机问题，旨在解决选择难题以实现收益最大化。还提及在推荐系统中可平衡准确性和新颖性。阐述了Epsilon - Greedy、Upper Confidence Bound、Thompson Sampling三种算法原理及实现，介绍了其在兴趣探索、冷启动探索方面的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在生活中，每个人都会面临各种各样的选择问题，简单的来说中午吃什么有很多种可能性，怎么样能提供一种比较好的办法来解决选择难的问题，那就是Bandit算法

说到Bandit算法，我起初刚看到这个算法的时候是出现在强化学习里面，这个算法主要来源于赌博的问题，主要是这么回事，一个人去赌场摇老虎机，你不知道老虎机是什么可以理解为就是一台机器你摇它的手臂它会往出吐钱，赌场有一排老虎机，外表没有区分，但是每个老虎机吐钱的概率不一样，也不知道每个老虎机吐钱的规律是什么样，每次怎么选择老虎机可以做到最大化收益，这个就是多臂赌博机问题。

注：推荐系统中也会出现这个问题，如何平衡准确性和新颖性评价指标，就是那个Double E问题(Exploitation&Exploration)，Exploitation：选择现在可能最佳的方案，Exploration：选择现在不确定的一些方案，但未来可能会有高收益方案；在做两类决策的过程中，不断更新对所有决策的不确定性的认知，优化长期的目标函数