对抗性在线强化学习中的切换成本与未知转移函数处理
在对抗性在线强化学习领域,当防御者资源有限时,需要考虑策略切换成本以及转移函数未知等复杂情况。本文将深入探讨相关算法及理论,包括SEEDS算法的性能分析,以及在转移函数未知时SEEDS - UT算法的改进与应用。
1. SEEDS算法的损失遗憾与切换成本分析
SEEDS算法在对抗性在线强化学习中表现出色,它能在损失遗憾和切换成本之间实现良好的权衡。通过一系列数学推导和理论证明,我们可以得到SEEDS算法的损失遗憾上界。
首先,存在如下不等式:
[
\sum_{u = 1}^{U} \mathbb{E} {F[u]} \left[ \mathbb{E} \left[ \left\langle \tilde{q} {SEEDS,P}[u + 1] - q^{\pi^*}, l_{[u]} \right\rangle \big| F[u], P \right] \right] \leq \frac{D_{KL}(q | \hat{q}_{SEEDS,P}[1])}{\eta} \leq \frac{H}{\eta} \ln \frac{SA}{H}
]
结合切换成本上界(\beta \cdot \left\lceil \frac{T}{\tau} \right\rceil),并对参数(\eta)和(\tau)进行调整,SEEDS算法的遗憾上界为(O(\beta^{1/3} (HSA)^{1/3} T^{2/3}))。
在定理4中,设(N_{SEEDS} \triangleq \left\lceil \frac{T}{\tau} \right\rc
SEEDS-UT算法处理未知转移
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



