2024/4/25:Hybrid Policy Optimization from Imperfect Demonstrations

本文介绍了一种名为HYPO的方法,通过结合模仿学习和判别器机制,使智能体在稀疏奖励环境下利用少量非最优演示数据进行有效探索。该方法包括离线引导策略、判别器和在线智能体,旨在克服次优演示带来的保守性,促进智能体性能提升。

NeurIPS 2023 poster
Author:Hanlin Yang, Chao Yu, peng sun, Siji Chen
paper link
Keywords: reinforcement learning, sparse reward, exploration, learning from demonstrations
提出一种稀疏奖励环境下,利用少量非最优演示数据引导智能体高效探索的方法。

1. Abstract

利用高质量演示数据帮助智能体在稀疏奖励环境探索,是一种可行方法。但是这种演示数据的获取困难,因此探索如何使用次优数据非常重要。本文提出HYPO算法,利用模仿学习训练离线引导策略,帮助智能体在线探索,同时避免次优演示导致的保守策略。

2. Method

在这里插入图片描述

本文首先基于一个假设,即在初始阶段,得到演示数据的专家策略性能是优于智能体的策略,即专家策略优势函数值(Advantage value)大于智能体策略。

HYPO的三个关键组成为:判别器、离线引导着(offline guider)和在线agent。判别器通过区分轨迹数据来自智能体还是演示专家,进而控制guider的学习过程。而guider则是通过Behavior cloning,动态学习智能体以及专家,从而为智能体提供引导。智能体提炼(distill)guider策略中的知识并超越它。

2.1 Semi-supervised Discriminator Learning

为了防止分类器在次优专家数据上过拟合,将判别器优化看作是positive-unlabeled (PU) 奖励学习问题,智能体数据看作是无标签混合数据,这样guider也可以向智能体学习。考虑到仅靠(s,a)信息很难区分专家与智能体的轨迹,本文对判别器的输入添加 log ⁡ π b \log\pi_b logπb,最小化下列损失函数优化判别器:
L d = η E ⁡ ( s , a ) ∼ D [ − log ⁡ d ( s , a , log ⁡ π b ) ] + E ⁡ ( s , a ) ∼ B [ − log ⁡ ( 1 − d ( s , a , log ⁡ π b ) ) ] − η E ⁡ ( s , a ) ∼ D [ − log ⁡ ( 1 − d ( s , a , log ⁡ π b ) ) ] . \begin{aligned}\mathcal{L}_d&=\eta\underset{(s,a)\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}[\left.-\log d(s,a,\log\pi_b)\right]+\underset{(s,a)\sim\mathcal{B}}{\operatorname*{\mathbb{E}}}[\left.-\log\left(1-d(s,a,\log\pi_b)\right)\right]\\&-\eta\underset{(s,a)\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}[\left.-\log\left(1-d(s,a,\log\pi_b)\right)\right].\end{aligned} Ld=η(s,a)DE[logd(s,a,logπb)]+(s,a)BE[log(1d(s,a,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值