NeurIPS 2023 poster
Author:Hanlin Yang, Chao Yu, peng sun, Siji Chen
paper link
Keywords: reinforcement learning, sparse reward, exploration, learning from demonstrations
提出一种稀疏奖励环境下,利用少量非最优演示数据引导智能体高效探索的方法。
1. Abstract
利用高质量演示数据帮助智能体在稀疏奖励环境探索,是一种可行方法。但是这种演示数据的获取困难,因此探索如何使用次优数据非常重要。本文提出HYPO算法,利用模仿学习训练离线引导策略,帮助智能体在线探索,同时避免次优演示导致的保守策略。
2. Method

本文首先基于一个假设,即在初始阶段,得到演示数据的专家策略性能是优于智能体的策略,即专家策略优势函数值(Advantage value)大于智能体策略。
HYPO的三个关键组成为:判别器、离线引导着(offline guider)和在线agent。判别器通过区分轨迹数据来自智能体还是演示专家,进而控制guider的学习过程。而guider则是通过Behavior cloning,动态学习智能体以及专家,从而为智能体提供引导。智能体提炼(distill)guider策略中的知识并超越它。
2.1 Semi-supervised Discriminator Learning
为了防止分类器在次优专家数据上过拟合,将判别器优化看作是positive-unlabeled (PU) 奖励学习问题,智能体数据看作是无标签混合数据,这样guider也可以向智能体学习。考虑到仅靠(s,a)信息很难区分专家与智能体的轨迹,本文对判别器的输入添加 log π b \log\pi_b logπb,最小化下列损失函数优化判别器:
L d = η E ( s , a ) ∼ D [ − log d ( s , a , log π b ) ] + E ( s , a ) ∼ B [ − log ( 1 − d ( s , a , log π b ) ) ] − η E ( s , a ) ∼ D [ − log ( 1 − d ( s , a , log π b ) ) ] . \begin{aligned}\mathcal{L}_d&=\eta\underset{(s,a)\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}[\left.-\log d(s,a,\log\pi_b)\right]+\underset{(s,a)\sim\mathcal{B}}{\operatorname*{\mathbb{E}}}[\left.-\log\left(1-d(s,a,\log\pi_b)\right)\right]\\&-\eta\underset{(s,a)\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}[\left.-\log\left(1-d(s,a,\log\pi_b)\right)\right].\end{aligned} Ld=η(s,a)∼DE[−logd(s,a,logπb)]+(s,a)∼BE[−log(1−d(s,a,

本文介绍了一种名为HYPO的方法,通过结合模仿学习和判别器机制,使智能体在稀疏奖励环境下利用少量非最优演示数据进行有效探索。该方法包括离线引导策略、判别器和在线智能体,旨在克服次优演示带来的保守性,促进智能体性能提升。
最低0.47元/天 解锁文章
1066

被折叠的 条评论
为什么被折叠?



