DAI 2023
paper
Intro
离线强化学习(Offline Reinforcement Learning, O-RL)数据集的质量对智能体性能至关重要,而高质量的数据集往往稀缺。这种稀缺性要求通过后续的环境交互来增强智能体。特别是,状态-动作分布的偏移可能会对良好初始化的政策产生潜在的不利影响,从而阻碍了离线训练的政策直接应用离线政策RL算法。当前主要的离线到在线RL方法通常基于保守主义,这一特性可能会无意中限制了渐近性能。为了应对这一挑战,我们提出了一种名为动态约束演员-评论家(Dynamically Constrained Actor-Critic, DCAC)的方法,该方法基于动态约束策略优化的数学形式,能够根据特定规则审慎地调整策略优化上的约束,从而稳定初始的在线学习阶段,并减少不必要的保守主义。
Method
给定先验策略 π P i o r o \pi_{Pioro} πPioro,基于约束的策略优化问题可表示为
max θ E a ∼ π θ [ Q ( s , a ) − log π θ ( a ∣ s ) ] s . t . 1 g ( O s ) D K L ( π θ ( ⋅ ∣ s ) ∣ ∣ π p r i o r ( ⋅ ∣ s ) ) ≤ ϵ , ∫ π θ ( a ∣ s ) d a = 1. \max_{\theta}\mathbb{E}_{a\sim\pi_{\theta}}[Q(s,a)-\log\pi_{\theta}(a|s)]\\ s.t.\frac1{g(O_s)}D_{\mathrm{KL}}(\pi_\theta(\cdot|s)||\pi_{\mathrm{prior}}(\cdot|s))\leq\epsilon,\\ \int\pi_\theta(a|s)da=1. θmaxEa∼πθ[Q(s,a)−logπθ(a∣s)]s.t.g(Os)1DKL(πθ(⋅∣s)∣∣πprior(⋅∣s))≤ϵ,∫πθ(a∣s)da=1.
其中 g g g为约束系数函数。有拉格朗日乘子法得到最优解
π ∗ ( a ∣ s ) = exp [ g ( O s ) λ Q ~ ( s , a ) + log π p r i o r ( a ∣ s ) ] Z ( s ) , w h e r e Z ( s ) = ∫ exp [ g ( O s ) λ Q ~ ( s , a ) + log π p r i o r ( a ∣ s ) ] d a . Q ~ ( s , a ) = Q ( s , a ) − log π θ ( a ∣ s ) . \pi^{*}(a|s)=\frac{\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]}{\mathcal{Z}(s)},\\\mathrm{where~}\mathcal{Z}(s)=\int\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]da.\\\tilde{Q}(s,a)=Q(s,a)-\log\pi_{\theta}(a|s). π∗(a∣s)=Z(s)

最低0.47元/天 解锁文章
4425

被折叠的 条评论
为什么被折叠?



