Offline :Adversarially Trained Actor Critic for Offline Reinforcement Learning

ICML 2022
paper
code
基于Stackelberg游戏博弈形式,对抗的学习actor与critic

Intro

Method

将离线RL的Stackelberg博弈表述为一个双层优化问题,学习者策略π∈Π为领导者,批评家f∈F为跟随者:
π ^ ∗ ∈ argmax ⁡ π ∈ I I L μ ( π , f π )     (1) s . t . f π ∈ argmin ⁡ L μ ( π , f ) + β E μ ( π , f ) \widehat{\pi}^{*}\in\operatorname*{argmax}_{\pi\in\mathbf{II}}\mathcal{L}_{\mu}(\pi,f^{\pi})~~~~\text{(1)}\\\mathrm{s.t.}\quad f^{\pi}\in\operatorname*{argmin}\mathcal{L}_{\mu}(\pi,f)+\beta\mathcal{E}_{\mu}(\pi,f) π πIIargmaxLμ(π,fπ)    (1)s.t.fπargminLμ(π,f)+βEμ(π,f)
其中 β > 0 \beta>0 β>0,并且
L μ ( π , f ) : = E μ [ f ( s , π ) − f ( s , a ) ]     (2) E μ ( π , f ) : = E μ [ ( ( f − T π f ) ( s , a ) ) 2 ] .     (3) \mathcal{L}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[f(s,\pi)-f(s,a)]~~~~\text{(2)}\\\mathcal{E}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[((f-\mathcal{T}^{\pi}f)(s,a))^{2}].~~~~\text{(3)} Lμ(π,f):=E

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值