具有切换成本的对抗性在线强化学习
1. 切换成本研究概述
切换成本在各种在线问题中已受到广泛关注,例如在在线凸优化、凸体追踪、度量任务系统、在线集合覆盖、k - 服务器问题以及在线控制等方面均有研究。
2. 具有切换成本的对抗性多臂老虎机学习
2.1 问题描述
- 基本设定 :在具有切换成本的对抗性多臂老虎机学习中,有 $A$ 个臂 ${1, 2, …, A}$。在每个时间步 $t$,在线智能体根据算法 $\pi$ 从这些臂中选择一个臂 $a^{\pi}(t)$,该臂将产生损失 $l_t(a^{\pi}(t))$。损失函数 $l_t(\cdot)$ 可以在不同时间任意变化。
- 切换成本 :如果在时间 $t$ 选择的臂 $a^{\pi}(t)$ 与时间 $t - 1$ 选择的臂 $a^{\pi}(t - 1)$ 不同,则会产生切换成本 $\beta$。
- 总成本 :$T$ 个时间槽的总成本为:
[Cost(1 : T ) \triangleq \sum_{t = 1}^{T} l_t(a^{\pi}(t)) + \sum_{t = 1}^{T - 1} \beta \cdot \mathbb{1}{a^{\pi}(t + 1) \neq a^{\pi}(t)}] - 最优算法成本 :最优算法 $\pi^ $ 能提前知晓未来损失,因此可以在整个时间范围内只选择一个臂。其成本为:
[Cost^{\pi^ <
超级会员免费看
订阅专栏 解锁全文
2410

被折叠的 条评论
为什么被折叠?



