30、统一因果推断与多臂老虎机学习的汤普森采样方法

统一因果推断与多臂老虎机学习的汤普森采样方法

1. 引言

在许多网络应用(如推荐系统、网络广告等)中,离线日志数据十分常见,它为改善在线决策提供了巨大潜力。然而,利用这些离线日志数据进行在线决策并非易事,因为这些数据是观察性的,可能会误导在线决策。

VirUCB是该研究领域中最新的著名算法框架之一,它通过虚拟游戏将离线因果推断和在线多臂老虎机学习统一起来。虚拟游戏指的是通过因果推断技术从离线日志数据中合成在线多臂老虎机学习的反馈或奖励,而多臂老虎机学习算法并不区分虚拟游戏和真实游戏,这使得VirUCB框架在遗憾上下界方面有很好的理论保证。

VirUCB框架使用基于上置信界(UCB)的算法进行多臂老虎机学习或在线决策。而汤普森采样在多臂老虎机学习问题中是UCB算法的一个显著替代方案,在许多场景中表现优于UCB算法。本文旨在研究如何将VirUCB从基于UCB的在线决策扩展到基于汤普森采样的在线决策,以提高在线决策的准确性,并揭示应用汤普森采样统一离线因果推断和在线多臂老虎机学习的基本见解。

2. 模型
2.1 多臂老虎机学习模型

为了简化表述,我们考虑上下文多臂老虎机学习模型。假设有一个决策者和有限数量的 $T \in N^+$ 个决策轮次,用 $t \in [T] \triangleq {1, \ldots, T}$ 表示。设 $A \subset N^+$ 为臂集,其中 $|A| = K < \infty$。在第 $t$ 轮,上下文向量为 $x_t \in R^d$,且该上下文向量是任意生成的。

拉动臂 $a \in A$ 在第 $t$ 轮的奖励 $R_{a,t}$ 定义为:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值