有限随机多臂老虎机与强化学习问题解析
1. 有限随机多臂老虎机问题
有限随机多臂老虎机问题存在渐近最优解。对于任意有限的 $T$,存在一个关于 $T$ 的对数下界,接近匹配相关定理的界限。有研究对其进行改进,使其更接近下界,且仍基于 UCB1 思想。
另外,还有所谓的与分布无关的界限,它不依赖于像“差距” $\mu^* - \mu_i$ 这样的问题参数。一般来说,这些界限不再是关于 $T$ 的对数形式,因为差距可能是 $1/\sqrt{T}$ 阶的,其复杂度为 $O(\sqrt{T})$。
2. 非独立同分布奖励情况
经典随机设置的多臂老虎机问题有多种变体,常见的变体大多放宽了固定臂采样时奖励独立同分布的假设。以下是几种常见的变体情况:
- 非随机(对抗性)老虎机设置 :每个臂的奖励序列是预先固定的,并非随机。在此情况下,每一步选择能使该步奖励最大化的臂可使奖励最大化。但由于奖励序列可能完全任意,没有学习者能在这种最优策略下表现良好。因此,通常考虑相对于事后最佳固定臂的遗憾,即 $\arg \max_i \sum_{t = 1}^{T} r_{t,i}$,其中 $r_{t,i}$ 是第 $t$ 步臂 $i$ 的奖励。在这种设置下,可以实现 $O(\sqrt{KT})$ 阶的遗憾界限。确定性选择臂的算法容易被对抗性奖励序列欺骗,而像 Exp3 算法这类在每一步从合适的臂分布中选择臂(根据收集的奖励更新分布)的算法,能达到上述遗憾上界,且该上界被证明是最优的。
- 上下文老虎机设置 :学习者会收到额外的称为上下文的信息。选择臂的奖励既取决于上下文,也取决于所选的臂,
超级会员免费看
订阅专栏 解锁全文
862

被折叠的 条评论
为什么被折叠?



