31、统一因果推断与在线学习的创新算法及联邦学习中特立独行者的应对策略

统一因果推断与在线学习的创新算法及联邦学习中特立独行者的应对策略

在当今的数据驱动决策领域,如何有效地利用离线数据进行在线学习,以及在联邦学习中处理特殊类型的客户端数据,是两个备受关注的重要问题。本文将为您详细介绍相关的研究成果,包括一种基于汤普森采样的统一因果推断和在线多臂老虎机学习的算法,以及联邦学习中针对特立独行客户端的选择策略。

基于汤普森采样的因果推断与在线学习算法

在多臂老虎机问题中,平衡探索与利用是在线决策的关键。传统的多臂老虎机学习算法框架主要分为基于上置信界(UCB)和基于汤普森采样两类,各有优劣。研究人员提出了一种新的方法,旨在统一离线因果推断和在线多臂老虎机学习。

研究人员将数据设置为20个臂和两个上下文的场景,每个决策轮次随机均匀选择一个上下文。他们将自己提出的VirTS - DF算法与三个基线算法进行了比较:
1. TS :无日志数据的汤普森采样算法。
2. VirTS
3. EffVirUCB :一种统一因果推断和在线多臂老虎机学习的最新算法。

为了表征各臂离线日志数据数量的分布,研究人员使用向量$[0.1, 1, …, K - 1]^{-\alpha}$,其中$\alpha \in R$。具体来说,真实均值排名第$k$的臂的离线日志数据数量与该向量的第$k$个元素成正比。

通过在亚马逊和Movielens两个真实数据集上的实验,研究人员得到了以下结果:
- 极端不平衡离线数据($\alpha = 3$)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值