Offline RL :When Demonstrations meet Generative World Models: A Maximum Likelihood Framework...

文章探讨了离线环境中如何通过双层优化策略估计奖励函数和世界模型,以减少分布偏移带来的误差。策略优化采用SoftQ-learning和SAC技术,奖励函数更新则依赖于采样策略的梯度估计。

NIPS 2023 oral
Keywords: Model-based Offline IRL
paper

1 Introduction

在这里插入图片描述
离线IRL旨在利用离线专家数据恢复奖励函数以及环境动态结构。由于分布偏移问题,从固定数据集恢复的环境模型不准确,容易导致奖励函数估计存在误差。本文采用双层优化(Bi-level optimization)对二者进行交替优化。基于下层专家策略实现上层保守模型似然最大化。由图1可以看出方法分为两阶段:利用离线数据估计世界模型,并采用不确定估计技术不确定性度量,对高模型不确定性和低覆盖率的(s,a)进行惩罚,避免在不熟悉区域探索。第二阶段则是恢复奖励函数.

2 Preliminaries

给定数据集 D : = ( s , a , s ′ ) D:={(s,a,s')} D:=(s,a,s),训练世界模型 P ^ ( s ′ ∣ s , a ) \hat{P}(s'|s,a) P^(ss,a),基于此,model-based IRL的优化问题为:
max ⁡ θ L ( θ ) : = E τ E ∼ ( η , π E , P ) [ ∑ t = 0 ∞ γ t log ⁡ π θ ( a t ∣ s t ) ] s . t . π θ : = arg ⁡ max ⁡ π E τ A ∼ ( η , π , P ^ ) [ ∑ t = 0 ∞ γ t ( r ( s t , a t ; θ ) + U ( s t , a t ) + H ( π ( ⋅ ∣ s t ) ) ) ] \begin{aligned}\max_{\theta}L(\theta)&:=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\left[\sum_{t=0}^{\infty}\gamma^t\log\pi_\theta(a_t|s_t)\right]\\s.t.\pi_\theta&:=\arg\max_{\pi}\mathbb{E}_{\tau^\mathrm{A}\sim(\eta,\pi,\widehat{P})}\bigg[\sum_{t=0}^{\infty}\gamma^t\bigg(r(s_t,a_t;\theta)+U(s_t,a_t)+\mathcal{H}\big(\pi(\cdot|s_t)\big)\bigg)\bigg]\end{aligned} θmaxL(θ)s.t.πθ:=EτE(η,πE,P)[t=0γtlogπθ(atst)]:=argπmaxEτA(η,π,P )[t=0γt(r(st,at;θ)+U(st,at)+H(π(st)))]
其中 H ( π ( ⋅ ∣ s ) ) : = ∑ a ∈ A − π ( a ∣ s ) log ⁡ π ( a ∣ s ) \mathcal{H}(\pi(\cdot|s)):=\sum_{a\in\mathcal{A}}-\pi(a|s)\log\pi(a|s) H(π(s)):=aAπ(as)logπ(as);U代表对世界模型 P ^ \hat{P} P^不确定性度量的惩罚项;

上述问题优化为Bi-level问题。s.t.代表的low-level问题固定奖励函数优化策略;high-level则是固定策略优化奖励函数,使得最优策略 π θ \pi_\theta πθ在专家数据的对数似然最大。

其次,将对数似然作为优化目标是合理的,因为它在对世界有限的认知范围下( P ^ \hat{P} P^由D得到)搜索最有奖励函数,来解释专家行为。

low-level问题下得到的策略是保守的,因为包含代表不确定性惩罚以及正则化的U。确保最优策略不会再不熟悉区域探索。

3 Method

基于奖励函数以及世界模型,构造Q以及V
Q k ( s , a ) : = r ( s , a ; θ k ) + U ( s , a ) + γ E s ′ ∼ P ^ ( ⋅ ∣ s , a ) [ V k ( s ′ ) ] V k ( s ) : = E τ ∼ ( η , π k , P ^ ) [ ∑ t = 0 ∞ γ t ( r ( s t , a t ; θ k ) + U ( s t , a t ) + H ( π k ( ⋅ ∣ s t ) ) ) ∣ s 0 = s ] \begin{aligned} &Q_{k}(s,a):=r(s,a;\theta_{k})+U(s,a)+\gamma\mathbb{E}_{s'\sim\widehat{P}(\cdot|s,a)}\big[V_{k}(s')\big] \\ &V_{k}(s):=\mathbb{E}_{\tau\sim(\eta,\pi_{k},\hat{P})}\Big[\left.\sum_{t=0}^{\infty}\gamma^{t}\big(r(s_{t},a_{t};\theta_{k})+U(s_{t},a_{t})+\mathcal{H}(\pi_{k}(\cdot|s_{t}))\big)\right|s_{0}=s\Big] \end{aligned}

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值