[机器学习]阅读随笔 Bandit算法

博客介绍了专治选择综合征的Bandit算法,它源于K摇臂赌博机,属于强化学习。探讨了探索 - 利用困境及折中方法,如e - 贪心法和softmax。还提及推荐系统的EE问题和用户冷启动问题,Bandit算法可解决冷启动问题,其量化核心是累积遗憾。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

每天学习一点点,做个小笔记或随想。

1. 专治选择综合征-Bandit算法 

来自(2018.1.2  陈开江 AI科技大本营 )

1)Bandit来自 K摇臂赌博机

K摇臂赌博机 -- 《机器学习》周志华 ch16.2,属于强化学习

(1)Exploration-Exploitatin dilemma

仅探索:仅获知每个摇臂的期望奖赏

仅利用:仅为执行奖赏最大的动作

(2)对 探索-利用 进行折中

1是 e-贪心法,基于一个概率e。每次随机生成一个概率e,小于e就 随机 选择摇臂;大于e就选择 当前平均奖赏最高 的摇臂。

2是 softmax,基于当前已知的摇臂平均奖赏。摇臂概率的分配基于Boltzmann分布,每次都基于这一概率 选择摇臂。

                       “温度” 越小,平均奖赏高的摇臂被选取的概率也 越高。

2)推荐系统2个问题

1是EE问题,如1(1);2是用户冷启动问题--面对新用户,通过若干次实验,猜出用户的兴趣。

3)Bandit算法用于解决冷启动问题。如何选择不同的Bandit算法呢?

    公式 累积遗憾 --Bandit算法量化的核心问题

(每次选择后,计算和最佳选择差了多少,再累加得到总遗憾)

后续有多种算法及代码,学到推荐系统,再回来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值