O2O:DCAC: Reducing Unnecessary Conservatism in Offline-to-online Reinforcement Learning

DAI 2023
paper

Intro

离线强化学习(Offline Reinforcement Learning, O-RL)数据集的质量对智能体性能至关重要,而高质量的数据集往往稀缺。这种稀缺性要求通过后续的环境交互来增强智能体。特别是,状态-动作分布的偏移可能会对良好初始化的政策产生潜在的不利影响,从而阻碍了离线训练的政策直接应用离线政策RL算法。当前主要的离线到在线RL方法通常基于保守主义,这一特性可能会无意中限制了渐近性能。为了应对这一挑战,我们提出了一种名为动态约束演员-评论家(Dynamically Constrained Actor-Critic, DCAC)的方法,该方法基于动态约束策略优化的数学形式,能够根据特定规则审慎地调整策略优化上的约束,从而稳定初始的在线学习阶段,并减少不必要的保守主义。

Method

给定先验策略 π P i o r o \pi_{Pioro} πPioro,基于约束的策略优化问题可表示为
max ⁡ θ E a ∼ π θ [ Q ( s , a ) − log ⁡ π θ ( a ∣ s ) ] s . t . 1 g ( O s ) D K L ( π θ ( ⋅ ∣ s ) ∣ ∣ π p r i o r ( ⋅ ∣ s ) ) ≤ ϵ , ∫ π θ ( a ∣ s ) d a = 1. \max_{\theta}\mathbb{E}_{a\sim\pi_{\theta}}[Q(s,a)-\log\pi_{\theta}(a|s)]\\ s.t.\frac1{g(O_s)}D_{\mathrm{KL}}(\pi_\theta(\cdot|s)||\pi_{\mathrm{prior}}(\cdot|s))\leq\epsilon,\\ \int\pi_\theta(a|s)da=1. θmaxEaπθ[Q(s,a)logπθ(as)]s.t.g(Os)1DKL(πθ(s)∣∣πprior(s))ϵ,πθ(as)da=1.
其中 g g g为约束系数函数。有拉格朗日乘子法得到最优解
π ∗ ( a ∣ s ) = exp ⁡ [ g ( O s ) λ Q ~ ( s , a ) + log ⁡ π p r i o r ( a ∣ s ) ] Z ( s ) , w h e r e   Z ( s ) = ∫ exp ⁡ [ g ( O s ) λ Q ~ ( s , a ) + log ⁡ π p r i o r ( a ∣ s ) ] d a . Q ~ ( s , a ) = Q ( s , a ) − log ⁡ π θ ( a ∣ s ) . \pi^{*}(a|s)=\frac{\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]}{\mathcal{Z}(s)},\\\mathrm{where~}\mathcal{Z}(s)=\int\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]da.\\\tilde{Q}(s,a)=Q(s,a)-\log\pi_{\theta}(a|s). π(as)=Z(s)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值