贝叶斯决策理论中的多臂老虎机问题解析
1. 多臂老虎机问题概述
想象一个在赌场的玩家,面对多台老虎机,每台老虎机的奖励支付率不同。每一次拉动不同老虎机的操作对应一个不同的动作,而所处的赌场环境就是一个固定的状态。玩家的目标是尽快找出哪台老虎机支付的奖金最多,然后一直玩那台以获取尽可能多的财富。这就是多臂老虎机(MAB)问题的形象化描述。
2. 上下文老虎机
在基本的老虎机问题中,自然状态 $s_t$ 是固定的,意味着环境不会改变,但玩家对世界的内部模型会随着对不同动作奖励的了解而改变。如果允许环境状态 $s_t$ 随时间随机变化,这种模型就被称为上下文老虎机,它是一种更灵活的模型。
- 在线广告系统应用 :用户当前正在浏览的页面可视为状态 $s_t$,我们选择展示的广告则为动作 $a_t$。奖励函数形式为 $R(s_t, a_t)$,这表明广告 $a_t$ 的价值取决于上下文 $s_t$,目标是最大化预期奖励,即人们点击广告的预期次数,也就是点击率(CTR)。
- 临床试验应用 :当前正在治疗的患者的特征为状态 $s_t$,给予患者的治疗方案(如新药或安慰剂)为动作 $a_t$。目标是最大化预期奖励,即治愈人数的预期值。有时目标也表述为确定最佳治疗方案,这被称为最佳臂识别。
- 随机老虎机与对抗性老虎机 :到目前为止,我们假设状态和奖励是从固定分布中采样的,即 $s_t \sim p(s_t)$ 和 $r_t \sim p(r|s_t, a_t)$,这被称为随机老虎机。也可以让奖励甚至状态以对抗的方式选择,即环境试图最小化玩家的奖励,
超级会员免费看
订阅专栏 解锁全文
96

被折叠的 条评论
为什么被折叠?



