无悔动态:在线决策与均衡收敛
1. 在线决策基础
在线决策问题涉及一个决策者和一个对手。决策者提前知晓一组包含 $n \geq 2$ 个行动的集合 $A$ 以及时间范围 $T \geq 1$。例如,$A$ 可以代表不同的投资策略,或者家与工作地点之间的不同驾驶路线。
在每个时间步 $t = 1, 2, \ldots, T$ 中,具体流程如下:
1. 决策者选择一个关于行动集合 $A$ 的概率分布 $p_t$。
2. 对手选择一个成本向量 $c_t : A \to [-1, 1]$。
3. 根据分布 $p_t$ 选择一个行动 $a_t$,决策者承担成本 $c_t(a_t)$。
4. 决策者了解整个成本向量 $c_t$。
一个在线决策算法会根据前 $t - 1$ 个时间步的成本向量 $c_1, \ldots, c_{t - 1}$ 和已实现的行动 $a_1, \ldots, a_{t - 1}$ 来确定每个时间步 $t$ 的概率分布 $p_t$。对手则根据算法在前 $t$ 天使用的概率分布 $p_1, \ldots, p_t$ 和前 $t - 1$ 天已实现的行动 $a_1, \ldots, a_{t - 1}$ 来确定每个时间步 $t$ 的成本向量 $c_t$。我们通过算法相对于最坏情况对手的预期成本(在已实现的行动上)来评估其性能,并且允许负成本,负成本可用于建模收益。
下面通过几个例子来明确在线决策算法的一些限制:
- 例 17.1:与最佳行动序列比较 :假设 $A = {1, 2}$,对于任意一个在线决策算法,对手在每天 $t$ 选择成本向量 $c_t$ 的方式如下:如
超级会员免费看
订阅专栏 解锁全文
745

被折叠的 条评论
为什么被折叠?



