在线竞争预测中的领先策略与风险敏感在线学习
1. 风险敏感在线学习相关定理证明
1.1 关于 ln(1 + z) 的性质引理
对于小的 z,ln(1 + z) 有如下性质:
- 引理 9:对于任意 L > 2 以及任意 v、y 和 z,当 |v|、|y|、|v + y| 和 |z| 都被 1/L 限制时,有:
[z - \frac{(3L + 2)z^2}{6L} < \ln(1 + z) < z - \frac{(3L - 2)z^2}{6L}]
[\ln(1 + v) + \frac{Ly}{L + 1} < \ln(1 + v + y) < \ln(1 + v) + \frac{Ly}{L - 1}]
1.2 对 (\ln\frac{\tilde{W}_{n + 1}}{\tilde{W}_1}) 的上下界估计
1.2.1 上界估计
引理 10:对于算法 Prod,当 (\eta = \frac{1}{LM} \leq \frac{1}{4})(L > 2)时,对于奖励绝对值被 M 限制的序列 x,在任意时间 n 有:
[\ln\frac{\tilde{W}_{n + 1}}{\tilde{W}_1} \leq \frac{\eta LR_n(A, x)}{L - 1} - \frac{\eta^2(3L - 2)nVar_n(A, x)}{6L}]
证明过程如下:
[
\begin{align }
\ln\frac{\tilde{W} {n + 1}}{\tilde{W}_1} &
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



