ICLR 2022
Author:Chenjia Bai, Lingxiao Wang, Zhuoran Yang, Zhi-Hong Deng, Animesh Garg, Peng Liu, Zhaoran Wang
Keywords: Pessimistic Bootstrapping, Bootstrapped Q-functions, Uncertainty Estimation, Offline Reinforcement Learning
paper
code
1. Introduction
离线强化学习旨在利用离线数据,不与环境交互下学习策略。但容易受OOD数据影响导致外推误差。常用解决方法由:1)policy constraint以及2)conservative method。前者限制策略接近行为策略,容易受数据集质量影响;后者则是对OOD状态动作的Q-value值进行惩罚,但容易导致保守的价值估计。
对于OOD数据采用基于模型的不确定性度量被证明有效(MOPO、MOREL),但在复杂环境下模型精确优化困难。
本文提出一种悲观自举的offline RL算法PBRL,基于数据不确定性度量的model-free方法。PBRL通过Bootstrapping Q functions进行价值迭代估计,并将其估计的标准差来量化不确定性,然后将不确定性量化作为惩罚项用于价值函数以及策略优化。除此外,提出一种OOD数据采样技术,作为学习到的Q函数的正则化器。
2. Method

2.1 UNCERTAINTY QUANTIFICATION WITH BOOTSTRAPPING
维持K个bootstrap Q函数用于不确定性估计。其中,第k个Q原始更新目标为:
T ^ Q θ k ( s , a ) : = r ( s , a ) + γ E ^ s ′ ∼ P ( ⋅ ∣ s , a ) , a ′ ∼ π ( ⋅ ∣ s ) [ Q θ − k ( s ′ , a ′ ) ] \widehat{\mathcal{T}}Q_\theta^k(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s'\sim P(\cdot|s,a),a'\sim\pi(\cdot|s)}\Big[Q_{\theta^-}^k(s',a')\Big] T
Qθk(s,a):=r(s,a)+γE
s′∼P(⋅∣s,a),a′∼π(⋅∣s)[Qθ−k(s′,a′)]
通过K个Q函数的标准差进行不确定性估计
U ( s , a ) : = S t d ( Q k ( s , a ) ) = 1 K ∑ k = 1 K ( Q k ( s , a ) − Q ˉ ( s , a ) ) 2 . \mathcal{U}(s,a):=\mathrm{Std}(Q^k(s,a))=\sqrt{\frac{1}{K}\sum_{k=1}^K\left(Q^k(s,a)-\bar{Q}(s,a)\right)^2}. U(s,a):=Std(Qk(s,a))=K1
没有检索到标题

本文提出PBRL算法,通过BootstrapQ-functions估计不确定性,将不确定性用于价值函数和策略优化。算法通过惩罚OOD状态动作和采样技术,有效处理离线数据中的OOD问题。
最低0.47元/天 解锁文章
3747

被折叠的 条评论
为什么被折叠?



