31、统一因果推断与在线学习的创新算法及联邦学习中特立独行者的应对策略

放屁带闪电

于 2025-08-24 16:25:53 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：知识发现的前沿探索文章标签：因果推断在线学习联邦学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/grafana8visual/article/details/152074914

知识发现的前沿探索专栏收录该内容

62 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

统一因果推断与在线学习的创新算法及联邦学习中特立独行者的应对策略

在当今的数据驱动决策领域，如何有效地利用离线数据进行在线学习，以及在联邦学习中处理特殊类型的客户端数据，是两个备受关注的重要问题。本文将为您详细介绍相关的研究成果，包括一种基于汤普森采样的统一因果推断和在线多臂老虎机学习的算法，以及联邦学习中针对特立独行客户端的选择策略。

基于汤普森采样的因果推断与在线学习算法

在多臂老虎机问题中，平衡探索与利用是在线决策的关键。传统的多臂老虎机学习算法框架主要分为基于上置信界（UCB）和基于汤普森采样两类，各有优劣。研究人员提出了一种新的方法，旨在统一离线因果推断和在线多臂老虎机学习。

研究人员将数据设置为20个臂和两个上下文的场景，每个决策轮次随机均匀选择一个上下文。他们将自己提出的VirTS - DF算法与三个基线算法进行了比较：
1. TS ：无日志数据的汤普森采样算法。
2. VirTS 。
3. EffVirUCB ：一种统一因果推断和在线多臂老虎机学习的最新算法。

为了表征各臂离线日志数据数量的分布，研究人员使用向量$[0.1, 1, …, K - 1]^{-\alpha}$，其中$\alpha \in R$。具体来说，真实均值排名第$k$的臂的离线日志数据数量与该向量的第$k$个元素成正比。

通过在亚马逊和Movielens两个真实数据集上的实验，研究人员得到了以下结果：
- 极端不平衡离线数据（$\alpha = 3$） ：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。