带阶段约束的上下文赌博机
Aldo Pacchiano, Mohammad Ghavamzadeh, Peter Bartlett; 26(170):1−57, 2025.
摘要
我们研究存在阶段约束的上下文赌博机问题,其中约束必须同时以高概率和期望形式满足。我们首先处理线性情况,即奖励函数和阶段约束(成本函数)均为线性。在高概率和期望两种设置下,我们分别提出了该问题的置信上界算法,并证明了其T轮遗憾界限。我们还证明了该约束问题的下界,展示了如何将算法和分析扩展到多约束情况,并提供仿真验证理论结果。
在高概率设置中,我们描述了算法可处理的动作集最低要求。在约束为期望形式的设置中,我们将结果专门应用于多臂赌博机,并提出具有遗憾分析的计算高效算法。最后,我们将结果扩展到奖励和成本函数均为非线性的情况。我们提出了该情况的算法并证明了其遗憾界限,通过eluder维度刻画了函数类复杂度。
[abs][pdf][bib]
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
758

被折叠的 条评论
为什么被折叠?



