b站——《【强化学习】一小时完全入门》学习笔记及代码(1-3 多臂老虎机)
随着拉动次数的增加,两个估计值应该逐渐接近它们各自的真实奖励期望值(500 和 550)。具体来说,我们需要通过多次尝试(拉动手臂)来逐步更新对每个老虎机奖励的估计,最终找到两个老虎机的奖励期望值。:表示有 10% 的概率进行随机探索(随机选择一个老虎机),90% 的概率进行利用(选择当前估计奖励最高的老虎机)。的正态分布,即 N(550,100)N(550,100)。的正态分布,即 N(500,50)N(500,50)。右边的老虎机:N(550,100)N(550,100)
原创
2025-02-11 20:45:26 ·
311 阅读 ·
0 评论