29、多人多臂老虎机解决分布式选择问题

多人多臂老虎机解决分布式选择问题

在分布式选择问题中,传统方法存在一定局限性。例如,Martínez - Rubio 等人提出的 DD - UCB 算法利用共识程序估计奖励均值;Wang 等人提出的 DPE2 算法在渐近意义上最优且优于 DD - UCB;Dubey 等人提出的 MP - UCB 用于处理重尾奖励。而我们提出了一种新的多人多臂老虎机(MAB)模型变体来解决分布式选择问题。

1. 平台模型与问题表述
  • 平台模型 :考虑一个由请求、玩家和平台运营商组成的平台。用离散时间系统 $t \in {1, \ldots, T}$($T \in N^+$)来建模。请求到达由有限的臂集 $M \triangleq {1, \ldots, M}$($M \in N^+$)表示,每个臂可映射为共享出行应用的取货地点或食品配送应用的取货端口。
    • 每个臂 $m \in M$ 由随机向量对 $(D_m, R_m)$ 表征,其中 $D_m \triangleq [D_{t,m} : t = 1, \ldots, T]$ 表示随机请求,$R_m \triangleq [R_{t,m} : t = 1, \ldots, T]$ 表示奖励。$D_{t,m}$ 表示时间槽 $t$ 到达臂 $m$ 的请求数量,其支持集为 $D \triangleq {1, \ldots, d_{max}}$($d_{max} \in N^+$)。请求可映射为共享出行或食品配送请求,且请求到达是平稳的,即 $D_{1,m}, \ldots, D_{t,m}$ 是独立同分布(IID)随机变量。每个时间槽未服务的请求会被丢弃。
    • 用 $p_
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值