Offline RL:Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning

本文提出了一种新的离线强化学习方法PBRL,通过利用模型自由的Q函数不确信度量来精确表征OOD数据,避免了过度拟合。方法中,PBRL估计OOD动作并采用递减的惩罚机制,确保早期训练稳定性。Critic估计包括对in-distribution和OOD数据的双重优化,策略则通过最大化Q函数并结合动作熵正则化进行优化。

ICLR 2022
paper

Intro

离线强化学习容易因为OOD数据导致外推误差。以往的方法采用保守Q估计或者是策略约束。这些方法限制对OOD数据价值泛化以及缺乏对这些数据的精确表征。本文提出悲观不确信度量的离线强化学习方法PBRL。

Method

在这里插入图片描述

为了有效对OOD数据精确表征,部分model-based 离线方法证明不确信度量方法的有效性,但是需要离线数据学习动力学模型。本文model-free的方法则是利用对多个Q函数进行不确信度量,并作为惩罚项加入Q函数的自举过程:
T ^ in Q θ k ( s , a ) : = r ( s , a ) + γ E ^ s ′ ∼ P ( ⋅ ∣ s , a ) , a ′ ∼ π ( ⋅ ∣ s ) [ Q θ − k ( s ′ , a ′ ) − β in U θ − ( s ′ , a ′ ) ] \widehat{\mathcal{T}}^\text{in}Q_\theta^k(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s'\sim P(\cdot|s,a),a'\sim\pi(\cdot|s)}\Big[Q_{\theta^-}^k(s',a')-\beta_\text{in}\mathcal{U}_{\theta^-}(s',a')\Big] T inQθk(s,a):=r(s,a)+γE sP(s,a),aπ(s)[Qθk(s,a)βinUθ<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值