NIPS 2023 oral
Keywords: Model-based Offline IRL
paper
1 Introduction

离线IRL旨在利用离线专家数据恢复奖励函数以及环境动态结构。由于分布偏移问题,从固定数据集恢复的环境模型不准确,容易导致奖励函数估计存在误差。本文采用双层优化(Bi-level optimization)对二者进行交替优化。基于下层专家策略实现上层保守模型似然最大化。由图1可以看出方法分为两阶段:利用离线数据估计世界模型,并采用不确定估计技术不确定性度量,对高模型不确定性和低覆盖率的(s,a)进行惩罚,避免在不熟悉区域探索。第二阶段则是恢复奖励函数.
2 Preliminaries
给定数据集 D : = ( s , a , s ′ ) D:={(s,a,s')} D:=(s,a,s′),训练世界模型 P ^ ( s ′ ∣ s , a ) \hat{P}(s'|s,a) P^(s′∣s,a),基于此,model-based IRL的优化问题为:
max θ L ( θ ) : = E τ E ∼ ( η , π E , P ) [ ∑ t = 0 ∞ γ t log π θ ( a t ∣ s t ) ] s . t . π θ : = arg max π E τ A ∼ ( η , π , P ^ ) [ ∑ t = 0 ∞ γ t ( r ( s t , a t ; θ ) + U ( s t , a t ) + H ( π ( ⋅ ∣ s t ) ) ) ] \begin{aligned}\max_{\theta}L(\theta)&:=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\left[\sum_{t=0}^{\infty}\gamma^t\log\pi_\theta(a_t|s_t)\right]\\s.t.\pi_\theta&:=\arg\max_{\pi}\mathbb{E}_{\tau^\mathrm{A}\sim(\eta,\pi,\widehat{P})}\bigg[\sum_{t=0}^{\infty}\gamma^t\bigg(r(s_t,a_t;\theta)+U(s_t,a_t)+\mathcal{H}\big(\pi(\cdot|s_t)\big)\bigg)\bigg]\end{aligned} θmaxL(θ)s.t.πθ:=EτE∼(η,πE,P)[t=0∑∞γtlogπθ(at∣st)]:=argπmaxEτA∼(η,π,P
)[t=0∑∞γt(r(st,at;θ)+U(st,at)+H(π(⋅∣st)))]
其中 H ( π ( ⋅ ∣ s ) ) : = ∑ a ∈ A − π ( a ∣ s ) log π ( a ∣ s ) \mathcal{H}(\pi(\cdot|s)):=\sum_{a\in\mathcal{A}}-\pi(a|s)\log\pi(a|s) H(π(⋅∣s)):=∑a∈A−π(a∣s)logπ(a∣s);U代表对世界模型 P ^ \hat{P} P^不确定性度量的惩罚项;
上述问题优化为Bi-level问题。s.t.代表的low-level问题固定奖励函数优化策略;high-level则是固定策略优化奖励函数,使得最优策略 π θ \pi_\theta πθ在专家数据的对数似然最大。
其次,将对数似然作为优化目标是合理的,因为它在对世界有限的认知范围下( P ^ \hat{P} P^由D得到)搜索最有奖励函数,来解释专家行为。
low-level问题下得到的策略是保守的,因为包含代表不确定性惩罚以及正则化的U。确保最优策略不会再不熟悉区域探索。
3 Method
基于奖励函数以及世界模型,构造Q以及V
Q k ( s , a ) : = r ( s , a ; θ k ) + U ( s , a ) + γ E s ′ ∼ P ^ ( ⋅ ∣ s , a ) [ V k ( s ′ ) ] V k ( s ) : = E τ ∼ ( η , π k , P ^ ) [ ∑ t = 0 ∞ γ t ( r ( s t , a t ; θ k ) + U ( s t , a t ) + H ( π k ( ⋅ ∣ s t ) ) ) ∣ s 0 = s ] \begin{aligned} &Q_{k}(s,a):=r(s,a;\theta_{k})+U(s,a)+\gamma\mathbb{E}_{s'\sim\widehat{P}(\cdot|s,a)}\big[V_{k}(s')\big] \\ &V_{k}(s):=\mathbb{E}_{\tau\sim(\eta,\pi_{k},\hat{P})}\Big[\left.\sum_{t=0}^{\infty}\gamma^{t}\big(r(s_{t},a_{t};\theta_{k})+U(s_{t},a_{t})+\mathcal{H}(\pi_{k}(\cdot|s_{t}))\big)\right|s_{0}=s\Big] \end{aligned}

文章探讨了离线环境中如何通过双层优化策略估计奖励函数和世界模型,以减少分布偏移带来的误差。策略优化采用SoftQ-learning和SAC技术,奖励函数更新则依赖于采样策略的梯度估计。
最低0.47元/天 解锁文章
738





