不精确多臂老虎机:将不可约不确定性表示为零和博弈
Vanessa Kosoy; 26(184):1−75, 2025
摘要
我们提出了一种新颖的多臂老虎机框架,其中每个臂都与结果空间(比单纯的奖励更丰富)上的固定未知credal集相关联。臂到credal集的对应关系来自已知的假设类。然后我们定义了一个与这些credal集定义的下预测量相对应的遗憾概念。
等价地,该设置可以视为一个两人零和博弈,在每一轮中,智能体选择一个臂,而对手从与该臂相关联的选项集合中选择结果分布。遗憾是相对于博弈值定义的。
对于某些自然的假设类(大致类似于随机线性老虎机,这是所得设置的特殊情况),我们提出了一种算法并证明了相应的遗憾上界。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
66

被折叠的 条评论
为什么被折叠?



