统一因果推断与在线学习的创新算法及联邦学习中特立独行者的应对策略
在当今的数据驱动决策领域,如何有效地利用离线数据进行在线学习,以及在联邦学习中处理特殊类型的客户端数据,是两个备受关注的重要问题。本文将为您详细介绍相关的研究成果,包括一种基于汤普森采样的统一因果推断和在线多臂老虎机学习的算法,以及联邦学习中针对特立独行客户端的选择策略。
基于汤普森采样的因果推断与在线学习算法
在多臂老虎机问题中,平衡探索与利用是在线决策的关键。传统的多臂老虎机学习算法框架主要分为基于上置信界(UCB)和基于汤普森采样两类,各有优劣。研究人员提出了一种新的方法,旨在统一离线因果推断和在线多臂老虎机学习。
研究人员将数据设置为20个臂和两个上下文的场景,每个决策轮次随机均匀选择一个上下文。他们将自己提出的VirTS - DF算法与三个基线算法进行了比较:
1. TS :无日志数据的汤普森采样算法。
2. VirTS 。
3. EffVirUCB :一种统一因果推断和在线多臂老虎机学习的最新算法。
为了表征各臂离线日志数据数量的分布,研究人员使用向量$[0.1, 1, …, K - 1]^{-\alpha}$,其中$\alpha \in R$。具体来说,真实均值排名第$k$的臂的离线日志数据数量与该向量的第$k$个元素成正比。
通过在亚马逊和Movielens两个真实数据集上的实验,研究人员得到了以下结果:
- 极端不平衡离线数据($\alpha = 3$) :
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



