27、贝叶斯决策理论中的多臂老虎机问题解析

最新推荐文章于 2025-11-25 23:53:22 发布

time3

最新推荐文章于 2025-11-25 23:53:22 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：概率机器学习入门精要文章标签：贝叶斯决策理论多臂老虎机探索-利用权衡

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315176

概率机器学习入门精要专栏收录该内容

91 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

贝叶斯决策理论中的多臂老虎机问题解析

1. 多臂老虎机问题概述

想象一个在赌场的玩家，面对多台老虎机，每台老虎机的奖励支付率不同。每一次拉动不同老虎机的操作对应一个不同的动作，而所处的赌场环境就是一个固定的状态。玩家的目标是尽快找出哪台老虎机支付的奖金最多，然后一直玩那台以获取尽可能多的财富。这就是多臂老虎机（MAB）问题的形象化描述。

2. 上下文老虎机

在基本的老虎机问题中，自然状态 $s_t$ 是固定的，意味着环境不会改变，但玩家对世界的内部模型会随着对不同动作奖励的了解而改变。如果允许环境状态 $s_t$ 随时间随机变化，这种模型就被称为上下文老虎机，它是一种更灵活的模型。
- 在线广告系统应用 ：用户当前正在浏览的页面可视为状态 $s_t$，我们选择展示的广告则为动作 $a_t$。奖励函数形式为 $R(s_t, a_t)$，这表明广告 $a_t$ 的价值取决于上下文 $s_t$，目标是最大化预期奖励，即人们点击广告的预期次数，也就是点击率（CTR）。
- 临床试验应用 ：当前正在治疗的患者的特征为状态 $s_t$，给予患者的治疗方案（如新药或安慰剂）为动作 $a_t$。目标是最大化预期奖励，即治愈人数的预期值。有时目标也表述为确定最佳治疗方案，这被称为最佳臂识别。
- 随机老虎机与对抗性老虎机 ：到目前为止，我们假设状态和奖励是从固定分布中采样的，即 $s_t \sim p(s_t)$ 和 $r_t \sim p(r|s_t, a_t)$，这被称为随机老虎机。也可以让奖励甚至状态以对抗的方式选择，即环境试图最小化玩家的奖励，

会员秒杀 ¥9.9 重磅福利

超级会员免费看