34、在线核选择的多土匪反馈模型研究

在线核选择的多土匪反馈模型研究

1. 多臂老虎机问题基础

在 K 臂对抗性多臂老虎机(MAB)问题中,存在 K 个可能的臂 $A = {a_1, \ldots, a_K}$。在第 t 轮,学习者利用前 $t - 1$ 轮获得的知识选择一个臂 $a_{I_t} \in A$,然后观察到由对手分配的奖励 $r_{t, I_t} \in [0, B]$。学习者只能观察到所选臂的奖励,面临探索 - 利用困境。学习者的目标是通过某种策略 $P$ 最大化其累积奖励。我们使用遗憾值来衡量策略 $P$ 的性能:
[R_P^{MAB} = \max_{a_i \in A} \sum_{t = 1}^{T} r_{t, i} - \sum_{t = 1}^{T} r_{t, I_t}]

对于典型的 K 臂对抗性 MAB 问题,学习者在每一轮只收到一个土匪反馈。接下来,我们将提出用于在线核选择的多土匪反馈模型。

2. 随机特征空间中在线核选择的对抗性土匪模型
2.1 问题设定

一般来说,在线核学习算法会预设一个核 $\kappa$,并在样本序列 ${x_t, y_t} {t = 1}^{T}$ 上的希尔伯特空间 $H$ 中学习一系列模型 ${f_t} {t = 1}^{T}$。由于预设的核 $\kappa$ 可能不合适,在线核选择对于在线核学习至关重要。我们给定一组候选核 $K$。当获得一个新的示例 ${x_t, y_t}$ 时,我们选择一个核 $\kappa_{I_t} \in K$,并使用模型 $f_{t, I_t}$ 进行预测。在线核选择存在探索 - 利用困境。我们选择一系列核 ${\kappa_{I_t}}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值