对抗性在线强化学习中的关键技术与算法分析
在对抗性在线强化学习领域,我们面临着诸多挑战,尤其是在考虑切换成本的情况下。本文将深入探讨该领域的一些关键概念、理论下限以及相关算法。
1. 基本概念与目标
在对抗性在线强化学习中,我们有一些重要的概念需要理解。首先是占用度量(occupancy measure),它需要满足一些条件。对于所有 ( s \in \mathcal{S} h ),有:
[
\sum {s’ \in \mathcal{S} {h - 1}} \sum {a \in \mathcal{A}} q_t^{\pi, P}(s, s’, a) = \sum_{s’ \in \mathcal{S} {h + 1}} \sum {a \in \mathcal{A}} q_t^{\pi, P}(s’, s, a)
]
并且,占用度量应生成真实的转移函数 ( P ),即对于所有 ( (s’, s, a) \in \mathcal{S} {h + 1} \times \mathcal{S}_h \times \mathcal{A} ),有:
[
\frac{q_t^{\pi, P}(s’, s, a)}{\sum {b \in \mathcal{A}} q_t^{\pi, P}(s’, s, b)} = P_h(s’|s, a)
]
我们用 ( \mathcal{C}(P) ) 表示满足上述条件的所有占用度量的集合。在每一轮 ( t ) 开始时,与占用度量 ( q_t^{\pi, P} ) 相关的算法 ( \pi ) 会根据概率 (
超级会员免费看
订阅专栏 解锁全文
1746

被折叠的 条评论
为什么被折叠?



