EE问题相关资料摘记

博客介绍了多臂赌博机问题,即赌徒面对一排吐钱概率不同的老虎机,如何选择以最大化收益,该问题核心是探索新可能与守成已知最优选择的权衡。还列举了经典Bandit算法、朴素Bandit算法等解决算法,以及相关知识点如伯努利实验、二项分布等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.问题定义

一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
这个经典问题一个核心的权衡问题:我们是应该 探索(exploration) 去尝试新的可能性,还是应该 守成(exploitation) ,坚持目前已知的最好选择?在多臂老虎机问题中,探索意味着去玩还没玩过的老虎机,但这有可能使你花太多时间和金钱在收益不好的机器上;而守成意味着只玩目前为止给你收益最好的机器,但这又可能使你失去找到更好机器的机会。

2. 解决算法

  • 经典Bandit算法原理
    1. 朴素Bandit算法
    2. Epsilon-Greedy算法
    3. Thompson sampling算法
    4. UCB算法

参考:

  1. 推荐系统的EE问题及Bandit算法
  2. 推荐系统中的EE问题及解决问题的基本Bandit算法详细概述
  3. EE问题总结

相关知识点:

  1. 伯努利实验
  2. 二项分布、几何分布
  3. beta分布 beta分布介绍
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值