Intro
离线逆强化学习由于 协变量偏移 \textbf{协变量偏移} 协变量偏移问题容易导致所学的 奖励函数外推误差 \textbf{奖励函数外推误差} 奖励函数外推误差。这种误差可能使得学习到的奖励函数无法正确解释任务,并在新环境中误导智能体。本文利用专家数据和低质量的多样化数据,设计了一个算法CLARE,通过将“保守性”纳入学习奖励函数中并利用估计动态模型,有效地解决离线IRL。CLARE旨在解决奖励外推误差,利用高质量专家数据和低质量多样化数据增强状态-行为空间的覆盖。该算法在 保守奖励更新和安全策略改进之间进行迭代 \textbf{保守奖励更新和安全策略改进之间进行迭代} 保守奖励更新和安全策略改进之间进行迭代,奖励函数根据加权专家和多样化状态-行为更新,同时谨慎地惩罚模型rollout生成的行为。在MuJoCo连续控制任务上进行的广泛实验比较了CLARE与现有的离线IRL和离线IL算法。结果表明,CLARE在几乎所有数据集上都取得了显著的性能提升。
Method
Learning dynamics models
采用MOPO中的集成模型构造动力学模型,通过监督学习形式优化得到 { T ^ i ( s ′ ∣ s , a ) = N ( μ i ( s , a ) , Σ i ( s , a ) ) } i = 1 N \{\widehat{T}_{i}(s^{\prime}|s,a)=\mathcal{N}(\mu_{i}(s,a),\Sigma_{i}(s,a))\}_{i=1}^{N} { T i(s′∣s,a)=N(μi(s,a),Σi(s,a))}i=1N
CLARE
算法在保守奖励更新和安全策略改进之间进行迭代
- L ( r ∣ π ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] ⏟ penalized on model rollouts − E s , a ∼ ρ ˉ E [ r ( s , a ) ] ⏟ increased on expert data − E s , a ∼ ρ ˉ D [ β ( s , a ) r ( s , a ) ] ⏟ weighting expert and diverse data + Z β ψ ( r ) ⏟ regularizer , ( 2 ) L(r|\pi)\doteq\underbrace{Z_\beta\mathbb{E}_{s,a\thicksim\hat{\rho}^\pi}[r(s,a)]}_{\text{penalized on model rollouts}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^E}[r(s,a)]}_{\text{increased on expert data}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^D}[\beta(s,a)r(s,a)]}_{\text{weighting expert and diverse data}}+\underbrace{Z_\beta\psi(r)}_{\text{regularizer}},\quad(2) L(r∣π)≐penalized on model rollouts ZβEs,a∼ρ^π[r(s,a)]−increased on expert data Es,a∼ρˉE[r(s,a)]−weighting expert and diverse data Es,a∼
CLARE: 离线逆强化学习

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



