ICML 2022
paper
code
基于Stackelberg游戏博弈形式,对抗的学习actor与critic
Intro
Method
将离线RL的Stackelberg博弈表述为一个双层优化问题,学习者策略π∈Π为领导者,批评家f∈F为跟随者:
π ^ ∗ ∈ argmax π ∈ I I L μ ( π , f π ) (1) s . t . f π ∈ argmin L μ ( π , f ) + β E μ ( π , f ) \widehat{\pi}^{*}\in\operatorname*{argmax}_{\pi\in\mathbf{II}}\mathcal{L}_{\mu}(\pi,f^{\pi})~~~~\text{(1)}\\\mathrm{s.t.}\quad f^{\pi}\in\operatorname*{argmin}\mathcal{L}_{\mu}(\pi,f)+\beta\mathcal{E}_{\mu}(\pi,f) π
∗∈π∈IIargmaxLμ(π,fπ) (1)s.t.fπ∈argminLμ(π,f)+βEμ(π,f)
其中 β > 0 \beta>0 β>0,并且
L μ ( π , f ) : = E μ [ f ( s , π ) − f ( s , a ) ] (2) E μ ( π , f ) : = E μ [ ( ( f − T π f ) ( s , a ) ) 2 ] . (3) \mathcal{L}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[f(s,\pi)-f(s,a)]~~~~\text{(2)}\\\mathcal{E}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[((f-\mathcal{T}^{\pi}f)(s,a))^{2}].~~~~\text{(3)} Lμ(π,f):=E

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



