Offline RL:Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning

没有检索到标题
本文提出PBRL算法,通过BootstrapQ-functions估计不确定性,将不确定性用于价值函数和策略优化。算法通过惩罚OOD状态动作和采样技术,有效处理离线数据中的OOD问题。

ICLR 2022
Author:Chenjia Bai, Lingxiao Wang, Zhuoran Yang, Zhi-Hong Deng, Animesh Garg, Peng Liu, Zhaoran Wang
Keywords: Pessimistic Bootstrapping, Bootstrapped Q-functions, Uncertainty Estimation, Offline Reinforcement Learning
paper
code

1. Introduction

离线强化学习旨在利用离线数据,不与环境交互下学习策略。但容易受OOD数据影响导致外推误差。常用解决方法由:1)policy constraint以及2)conservative method。前者限制策略接近行为策略,容易受数据集质量影响;后者则是对OOD状态动作的Q-value值进行惩罚,但容易导致保守的价值估计。

对于OOD数据采用基于模型的不确定性度量被证明有效(MOPO、MOREL),但在复杂环境下模型精确优化困难。

本文提出一种悲观自举的offline RL算法PBRL,基于数据不确定性度量的model-free方法。PBRL通过Bootstrapping Q functions进行价值迭代估计,并将其估计的标准差来量化不确定性,然后将不确定性量化作为惩罚项用于价值函数以及策略优化。除此外,提出一种OOD数据采样技术,作为学习到的Q函数的正则化器。

2. Method

在这里插入图片描述

2.1 UNCERTAINTY QUANTIFICATION WITH BOOTSTRAPPING

维持K个bootstrap Q函数用于不确定性估计。其中,第k个Q原始更新目标为:
T ^ Q θ k ( s , a ) : = r ( s , a ) + γ E ^ s ′ ∼ P ( ⋅ ∣ s , a ) , a ′ ∼ π ( ⋅ ∣ s ) [ Q θ − k ( s ′ , a ′ ) ] \widehat{\mathcal{T}}Q_\theta^k(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s'\sim P(\cdot|s,a),a'\sim\pi(\cdot|s)}\Big[Q_{\theta^-}^k(s',a')\Big] T Qθk(s,a):=r(s,a)+γE sP(s,a),aπ(s)[Qθk(s,a)]
通过K个Q函数的标准差进行不确定性估计
U ( s , a ) : = S t d ( Q k ( s , a ) ) = 1 K ∑ k = 1 K ( Q k ( s , a ) − Q ˉ ( s , a ) ) 2 . \mathcal{U}(s,a):=\mathrm{Std}(Q^k(s,a))=\sqrt{\frac{1}{K}\sum_{k=1}^K\left(Q^k(s,a)-\bar{Q}(s,a)\right)^2}. U(s,a):=Std(Qk(s,a))=K1

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值