风险敏感的在线学习:理论与实践探索
1. 引言
在在线学习领域,虽然已有大量文献和众多具有最坏情况遗憾界保证的算法,但这些算法几乎都未考虑到投资回报或利润的波动性所带来的风险。在金融相关应用中,对投资组合波动性的考量与回报本身往往同等重要,这种忽视就显得尤为突出。
例如,将标准的 EG 投资组合管理算法应用于最近六年的标准普尔 500 指数时,尽管该算法有理论性能保证,但在所有正学习率下,其回报实际上都不如简单的均匀恒定再平衡投资组合(UCRP)。而风险敏感的在线算法则有可能大幅超越 UCRP。
因此,我们有动力寻找既能像传统方法(如 EG)一样具有保证,又能刻意纳入风险 - 回报权衡的算法。金融领域中常见的平衡风险和回报的方法有夏普比率和均值 - 方差(MV)准则。
- 夏普比率 :对于给定金融工具在时间序列 $r = (r_1, \ldots, r_T)$ 上的回报,设 $\mu(r)$ 为算术均值,$\sigma(r)$ 为标准差,则夏普比率为 $\mu(r)/\sigma(r)$。
- 均值 - 方差(MV)准则 :MV 为 $\mu(r) - \sigma(r)$。
我们自然希望在线学习算法在这些风险 - 回报指标上能实现无遗憾结果,但后续研究表明这一期望难以实现。
2. 预备知识
- 专家与算法 :设专家集合为 $K = {1, \ldots, K}$,在时间 $t \in {1, \ldots, T}$ 时,专家 $k
超级会员免费看
订阅专栏 解锁全文
2712

被折叠的 条评论
为什么被折叠?



