当联邦学习碰上老虎机

当联邦学习碰上老虎机

原论文:Federated Multi-Armed Bandits

FMAB框架

FL和MAB的自然结合—我们的动机是从非IID的(可能大量的)本地强盗模型中,以通信效率和隐私保护的方式解决全局随机MAB问题。

新的联邦MAB框架(FMAB)第一次系统地尝试将FL(联邦学习)MAB连接起来。FMAB框架是通用的,可以包含各种与FL原则相同的bandit问题。我们首先研究了一个近似的FMAB模型,证明了该框架的优点,其中全局bandit模型作为地面真相存在,而局部bandit模型是它的随机实现。除了arm采样中常见的奖励不确定性外,此设置还引入了与客户端采样相关的新不确定性。特别是,近似模型不假设任何次优差距知识,这禁止事先确定客户抽样要求。在不知道次优差距的情况下,将客户端采样与arm采样相混合会使问题变得非常复杂,我们通过提出一种新的联邦双UCB(Fed2 UCB)算法来解决这些挑战,该算法在执行arm采样时逐渐对新客户端进行采样,从而同时探索和平衡这两种类型的不确定性。理论分析表明,Fed2 UCB实现了 O ( l o g ( T ) ) O(log(T)) OlogT遗憾(明确考虑了通信成本),接近标准随机MAB模型的下限,并增加了通信损耗项。作为特例,研究了精确的FMAB模型,其中全局模型是所有局部模型的精确平均值。Fed1-UCB算法从Fed2-UCB退化而来,并实现了一个顺序最优后悔上界,它独立于客户端的数量,具有适当的更新周期选择。对合成数据集和真实数据集的数值模拟证明了所提算法的有效性和效率,并提供了一些有趣的见解。

在这里插入图片描述

问题表述

MAB

在标准随机MAB设置中,单个玩家直接有K个臂, a r m k arm_k armk的奖励为 X k X_k Xk(k∈ [K]) 独立于σ-次高斯分布采样,平均值为 µ k µ_k µk。在时间t,玩家选择一个手臂 π ( t ) π(t) π(t),目标是在t轮中获得最高的预期累积奖励,其特点是最小化(伪)遗憾:

在这里插入图片描述
(1)

k ∗ k_* k​​是最大化奖励手臂,期望取决于环境与决策的随机性,所得遗憾下限:

在这里插入图片描述
(2)

k l ( μ k , μ ∗ ) kl(\mu_k,\mu_*) kl(μk,μ)​​表示两个分布间的KL散度。

FMAB框架

在这里插入图片描述

FMAB框架中,多个客户端与同一组K臂(称为“本地臂”)交互。我们将MTA表示为时间t时参与的客户机的数量,这些客户机被标记为1到MTT,以便于讨论(算法中不使用它们)。客户只能与自己的本地MAB模型交互,客户之间没有直接通信。臂k为客户m生成独立观测值 x k , m x_{k,m} xk,m(观测值非奖励),遵循平均值为 µ k , m µ_{k,m} µkm的σ-次高斯分布。注意,Xk,mis只是一个观察,而不是一个奖励。与客户m不同哦的客户n,他们的模型是非IID,因此一般 µ k , m ≠ µ k , n µ_{k,m} \ne µ_{k,n} µkm=µkn​。

服务器。存在一个具有全局随机MAB模型的中央服务器,该服务器具有相同的σ-次高斯奖励分布的K个臂集(称为“全局臂”),平均奖励 µ k µ_k µk用于臂K。这个系统的真正回报是在这个全局模型上产生的,因此学习目标是在全局范围内实现的。但是,服务器无法在全局模型上直接观察奖励;她只能与反馈当地观察信息的客户互动。我们考虑了一般的非IID情形,其中局部模型不一定与全局模型相同,并且也做出了客户端和服务器完全同步的共同假设。

通信花费。尽管客户机无法相互通信,但经过一定时间后,他们可以根据本地观察结果将本地“模型更新”传输到服务器,服务器会聚合这些更新,以更准确地估计全局模型。然后将新的估计发送回客户机,以替换以前的估计,以便将来采取行动。然而,就像在FL中一样,通信资源是一个主要的瓶颈,算法必须意识到它的用处。我们在FMAB中加入了这一约束,每次客户机与服务器通信时都会施加一个损失C。

近似模型

全局模型是一个固定但是隐藏的基本事实(不管参与的客户是什么,都是外源生成的)

局部模型是它的IID随机实现。

具体而言,全局臂k的固定平均回报为 µ k µ_k µk。对于客户m,其局部臂k的平均奖励 µ k , m µ_{k,m} µk,m,是一个来自未知分布 φ k φ_k φk的样本,该分布是平均值为 µ k µ_k µk σ c σ_c σc次高斯分布。对于不同的客户 n ≠ m n \ne m n=m µ k , n µ_{k,n} µk,n,是从 φ k φ_k φk中采样的IID。由于局部模型是全局模型的随机实现,因此前者的有限集合不一定何以表示后者。换句话说,如果有M个客户参与,尽管 ∀ M ∈ [ M ] , E [ µ k , m ] = µ k ∀M∈ [M] ,\mathbb{E}[µ_{k,m}]=µ_k M[M]E[µkm]=µk,平均局部模型 μ ^ k M = 1 M ∑ m = 1 M μ k , m \hat{\mu}^M_k = \frac{1}{M}\sum^M_{m=1}\mu_{k,m} μ^kM=M1m=1Mμk,m,可能与全局模型不一致。具体而言, μ ^ k M \hat{\mu}^M_k μ^kM不一定等于(甚至接近) µ k µ_k µk,这会带来很大的困难。直观地说,服务器需要对足够多的客户机进行采样,以便对全局模型进行统计上的准确估计,但正如我们后面所示,如果没有次优差距知识,就无法先验地获得所需的客户机数量。客户抽样的需要也符合FL中大规模分布客户的特性

激励示例

近似模型捕获了实用认知无线电系统的关键特征,如图所示

在这里插入图片描述

假设总共有K个候选通道,索引为{1,K} 。每个通道的可用性取决于位置, p k ( x ) p_k(x) pk(x)表示通道k在位置x处可用的概率。基站的目标是从K个候选信道中选择一个信道来服务于区域D中给定的覆盖区域 D \mathcal{D} D的所有潜在的蜂窝用户(例如控制信道)。假设用户均匀随机分布在 D \mathcal{D} D上,在整个覆盖区域内测量全局信道可用性,如下所示:

在这里插入图片描述

众所周知,在无线研究中,基站自身无法直接对 p k p_k pk进行采样,因为它固定在一个位置。此外,等式(3) 需要在整个覆盖区域内进行连续采样,这在实践中是不可能的。实际上,基站只能指示离散位置 x m x_m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI+anything

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值