带阶段约束的上下文赌博机技术解析

带阶段约束的上下文赌博机

Aldo Pacchiano, Mohammad Ghavamzadeh, Peter Bartlett; 26(170):1−57, 2025.

摘要

我们研究存在阶段约束的上下文赌博机问题,其中约束必须同时以高概率和期望形式满足。我们首先处理线性情况,即奖励函数和阶段约束(成本函数)均为线性。在高概率和期望两种设置下,我们分别提出了该问题的置信上界算法,并证明了其T轮遗憾界限。我们还证明了该约束问题的下界,展示了如何将算法和分析扩展到多约束情况,并提供仿真验证理论结果。

在高概率设置中,我们描述了算法可处理的动作集最低要求。在约束为期望形式的设置中,我们将结果专门应用于多臂赌博机,并提出具有遗憾分析的计算高效算法。最后,我们将结果扩展到奖励和成本函数均为非线性的情况。我们提出了该情况的算法并证明了其遗憾界限,通过eluder维度刻画了函数类复杂度。

[abs][pdf][bib]
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值