多人多臂老虎机解决分布式选择问题
在分布式选择问题中,传统方法存在一定局限性。例如,Martínez - Rubio 等人提出的 DD - UCB 算法利用共识程序估计奖励均值;Wang 等人提出的 DPE2 算法在渐近意义上最优且优于 DD - UCB;Dubey 等人提出的 MP - UCB 用于处理重尾奖励。而我们提出了一种新的多人多臂老虎机(MAB)模型变体来解决分布式选择问题。
1. 平台模型与问题表述
- 平台模型 :考虑一个由请求、玩家和平台运营商组成的平台。用离散时间系统 $t \in {1, \ldots, T}$($T \in N^+$)来建模。请求到达由有限的臂集 $M \triangleq {1, \ldots, M}$($M \in N^+$)表示,每个臂可映射为共享出行应用的取货地点或食品配送应用的取货端口。
- 每个臂 $m \in M$ 由随机向量对 $(D_m, R_m)$ 表征,其中 $D_m \triangleq [D_{t,m} : t = 1, \ldots, T]$ 表示随机请求,$R_m \triangleq [R_{t,m} : t = 1, \ldots, T]$ 表示奖励。$D_{t,m}$ 表示时间槽 $t$ 到达臂 $m$ 的请求数量,其支持集为 $D \triangleq {1, \ldots, d_{max}}$($d_{max} \in N^+$)。请求可映射为共享出行或食品配送请求,且请求到达是平稳的,即 $D_{1,m}, \ldots, D_{t,m}$ 是独立同分布(IID)随机变量。每个时间槽未服务的请求会被丢弃。
- 用 $p_
超级会员免费看
订阅专栏 解锁全文
1751

被折叠的 条评论
为什么被折叠?



