通用折扣与平均奖励及贝叶斯学习的一致性研究
一、通用折扣与平均奖励相关概念及性质
1.1 平均价值相关定义与引理
在研究通用折扣与平均奖励的关系时,首先引入平均价值的概念。定义 (U_{km} := \frac{1}{m - k + 1}\sum_{i = k}^{m} r_i),它表示从 (k) 到 (m) 的平均奖励。同时有引理 11(未来平均价值的收敛性,(U_{k\infty})):对于 (k \leq m \to \infty) 且每个 (k),有以下关系成立:
- (U_{1m} \to \alpha \Leftrightarrow U_{km} \to \alpha \Rightarrow U_{k_m m} \to \alpha)(若 (\sup_{m} \frac{k_m - 1}{m} < 1))(\Leftarrow U_{k_m m} \to \alpha)。
这个引理的第一个等价关系表明,任何有限的初始部分对平均价值 (U_{1\infty}) 没有影响。
下面是对该引理的证明:
- 由恒等式 (mU_{1m} = (k - 1)U_{1,k - 1} + (m - k + 1)U_{km}) 可推出 (U_{km} - U_{1m} = \frac{k - 1}{m - k + 1}(U_{1m} - U_{1,k - 1})),进而得到 (|U_{km} - U_{1m}| \leq |U_{1m} - U_{1,k - 1}| \frac{m}{k - 1 - 1})。
- 对于 (\Leftrightarrow) 关系,分子有界为 1,对于固定的 (k) 和 (m \to \infty),分母趋于
通用折扣与贝叶斯学习一致性
超级会员免费看
订阅专栏 解锁全文
628

被折叠的 条评论
为什么被折叠?



