27、在线竞争预测中的领先策略与风险敏感在线学习

在线竞争预测中的领先策略与风险敏感在线学习

1. 风险敏感在线学习相关定理证明

1.1 关于 ln(1 + z) 的性质引理

对于小的 z,ln(1 + z) 有如下性质:
- 引理 9:对于任意 L > 2 以及任意 v、y 和 z,当 |v|、|y|、|v + y| 和 |z| 都被 1/L 限制时,有:
[z - \frac{(3L + 2)z^2}{6L} < \ln(1 + z) < z - \frac{(3L - 2)z^2}{6L}]
[\ln(1 + v) + \frac{Ly}{L + 1} < \ln(1 + v + y) < \ln(1 + v) + \frac{Ly}{L - 1}]

1.2 对 (\ln\frac{\tilde{W}_{n + 1}}{\tilde{W}_1}) 的上下界估计

1.2.1 上界估计

引理 10:对于算法 Prod,当 (\eta = \frac{1}{LM} \leq \frac{1}{4})(L > 2)时,对于奖励绝对值被 M 限制的序列 x,在任意时间 n 有:
[\ln\frac{\tilde{W}_{n + 1}}{\tilde{W}_1} \leq \frac{\eta LR_n(A, x)}{L - 1} - \frac{\eta^2(3L - 2)nVar_n(A, x)}{6L}]
证明过程如下:
[
\begin{align }
\ln\frac{\tilde{W} {n + 1}}{\tilde{W}_1} &

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值