Offline: OPTIMAL TRANSPORT FOR OFFLINE IMITATIONLEARNING

ICLR 2023
key: Reward relabeling、OT
概述: 随着大型数据集的出现,离线强化学习 (RL) 是一个有前途的框架,用于学习良好的决策策略,而无需与真实环境交互。然而,离线 RL 要求数据集进行奖励注释,这在奖励工程困难或获得奖励注释时提出了实际挑战劳动密集型。在本文中,我们介绍了最优传输奖励标记 (OTR),这是一种将奖励分配给离线轨迹的算法,并进行了一些高质量的演示。OTR 的关键思想是使用最优传输来计算数据集中未标记轨迹和专家演示之间的最佳对齐,以获得可以解释为奖励的相似性度量,然后离线 RL 算法可以使用它来学习策略。OTR 易于实现且计算效率高。
在这里插入图片描述
总结:方法是在离线强化学习背景下,探讨如和利用单条或者少量得高质量专家数据,对无奖励标记得大量离线数据实现reward labeling,进而再结合离线RL方法优化策略(两阶段)。而这种relabeling方法则是由最优传输(OPTIMAL TRANSPORT)实现。
实验结果:
Benchmark tasks: D4RL Locomotion, Antmaze, and Adroit.
在这里插入图片描述
在这里插入图片描述
OTR+IQL与原始IQL表现不相上下,说明OTR得到得奖励与真实奖励设置比较符合,这在下图中体现出强线性相关也说明这一点
在这里插入图片描述

特点:

  1. 不需要训练单独的奖励模型或鉴别器,这可能会导致更高的运行时开销。通过不必训练一个单独的参数模型,避免了鉴别器网络架构的超参数调整。
  2. 与其他方法(例如 GAIL 或 DemoDICE)不同,方法不需要解决一个极小极大优化问题,该问题可能会受到训练不稳定性的影响。
  3. OTR 独立于离线 RL 算法计算奖励信号。这样两阶段解耦,在面对下游离线任务需要细心选择离线RL方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值