Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning

CLARE: 离线逆强化学习

ICLR 2023
paper
code

Intro

离线逆强化学习由于 协变量偏移 \textbf{协变量偏移} 协变量偏移问题容易导致所学的 奖励函数外推误差 \textbf{奖励函数外推误差} 奖励函数外推误差。这种误差可能使得学习到的奖励函数无法正确解释任务,并在新环境中误导智能体。本文利用专家数据和低质量的多样化数据,设计了一个算法CLARE,通过将“保守性”纳入学习奖励函数中并利用估计动态模型,有效地解决离线IRL。CLARE旨在解决奖励外推误差,利用高质量专家数据和低质量多样化数据增强状态-行为空间的覆盖。该算法在 保守奖励更新和安全策略改进之间进行迭代 \textbf{保守奖励更新和安全策略改进之间进行迭代} 保守奖励更新和安全策略改进之间进行迭代,奖励函数根据加权专家和多样化状态-行为更新,同时谨慎地惩罚模型rollout生成的行为。在MuJoCo连续控制任务上进行的广泛实验比较了CLARE与现有的离线IRL和离线IL算法。结果表明,CLARE在几乎所有数据集上都取得了显著的性能提升。

Method

Learning dynamics models

采用MOPO中的集成模型构造动力学模型,通过监督学习形式优化得到 { T ^ i ( s ′ ∣ s , a ) = N ( μ i ( s , a ) , Σ i ( s , a ) ) } i = 1 N \{\widehat{T}_{i}(s^{\prime}|s,a)=\mathcal{N}(\mu_{i}(s,a),\Sigma_{i}(s,a))\}_{i=1}^{N} { T i(ss,a)=N(μi(s,a),Σi(s,a))}i=1N

CLARE

算法在保守奖励更新和安全策略改进之间进行迭代

  1. L ( r ∣ π ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] ⏟ penalized on model rollouts − E s , a ∼ ρ ˉ E [ r ( s , a ) ] ⏟ increased on expert data − E s , a ∼ ρ ˉ D [ β ( s , a ) r ( s , a ) ] ⏟ weighting expert and diverse data + Z β ψ ( r ) ⏟ regularizer , ( 2 ) L(r|\pi)\doteq\underbrace{Z_\beta\mathbb{E}_{s,a\thicksim\hat{\rho}^\pi}[r(s,a)]}_{\text{penalized on model rollouts}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^E}[r(s,a)]}_{\text{increased on expert data}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^D}[\beta(s,a)r(s,a)]}_{\text{weighting expert and diverse data}}+\underbrace{Z_\beta\psi(r)}_{\text{regularizer}},\quad(2) L(rπ)penalized on model rollouts ZβEs,aρ^π[r(s,a)]increased on expert data Es,aρˉE[r(s,a)]weighting expert and diverse data Es,a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值