O2O:Uncertainty-Driven Pessimistic Q-Ensemble for Offline-to-Online Reinforcement Learning

本文提出了一种新的离线强化学习方法UPQ,通过集成悲观的Q估计并引入基于不确信度的惩罚,有效应对OOD数据导致的价值函数错误估计,从而提高策略的性能。UPQ方法利用BalancedReplayBuffer和调整后的Critic和Actor更新机制来优化学习过程。

NIPS 2022 Offline RL Workshop
paper

Intro

O2O存在OOD数据导致价值函数的错误估计,进而导致策略出现performance drop。一些方法例如Off2OnRL采用集成悲观的Q估计方法,缓解分布偏移导致的这种Bootstrapping errors。同时该方法还提出一种Balanced ReplayBuffer将离线数据应用于在线过程。

本文提出的方法UPQ沿用集成悲观Q估计的同时,采用对Q函数加入基于不确信度量的惩罚。

Method

在这里插入图片描述

对集成Q函数以及策略沿用Off2OnRL的方法:
Q θ E ( s , a ) : = 1 N ∑ i = 1 N Q θ i ( s , a ) , π ϕ E ( ⋅ ∣ s ) = N ( 1 N ∑ i = 1 N μ ϕ i ( s ) , 1 N ∑ i = 1 N ( σ ϕ i 2 ( s ) + μ ϕ i 2 ( s ) ) − μ ϕ 2 ( s ) ) , \begin{aligned}Q_\theta^E(s,a)&:=\frac{1}{N}\sum_{i=1}^NQ_{\theta_i}(s,a),\\\pi_\phi^E(\cdot|s)&=\mathcal{N}\bigg(\frac{1}{N}\sum_{i=1}^N\mu_{\phi_i}(s),\quad\frac{1}{N}\sum_{i=1}^N\bigg(\sigma_{\phi_i}^2(s)+\mu_{\phi_i}^2(s)\bigg)-\mu_{\phi}^2(s)\bigg),\end{aligned} QθE(s,a)πϕE(s):=N1i=1NQθi(s,a),=N(N1i=1Nμϕi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值