每天学习一点点,做个小笔记或随想。
1. 专治选择综合征-Bandit算法
来自(2018.1.2 陈开江 AI科技大本营 )
1)Bandit来自 K摇臂赌博机
K摇臂赌博机 -- 《机器学习》周志华 ch16.2,属于强化学习
(1)Exploration-Exploitatin dilemma
仅探索:仅获知每个摇臂的期望奖赏
仅利用:仅为执行奖赏最大的动作
(2)对 探索-利用 进行折中
1是 e-贪心法,基于一个概率e。每次随机生成一个概率e,小于e就 随机 选择摇臂;大于e就选择 当前平均奖赏最高 的摇臂。
2是 softmax,基于当前已知的摇臂平均奖赏。摇臂概率的分配基于Boltzmann分布,每次都基于这一概率 选择摇臂。
“温度” 越小,平均奖赏高的摇臂被选取的概率也 越高。
2)推荐系统2个问题
1是EE问题,如1(1);2是用户冷启动问题--面对新用户,通过若干次实验,猜出用户的兴趣。
3)Bandit算法用于解决冷启动问题。如何选择不同的Bandit算法呢?
公式 累积遗憾 --Bandit算法量化的核心问题
(每次选择后,计算和最佳选择差了多少,再累加得到总遗憾)
后续有多种算法及代码,学到推荐系统,再回来