2024/4/25：Hybrid Policy Optimization from Imperfect Demonstrations

收到求救信号

已于 2024-03-04 14:46:57 修改

阅读量815

点赞数 29

CC 4.0 BY-SA版权

分类专栏：模仿学习强化学习文章标签：人工智能

于 2024-02-26 13:45:56 首次发布

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/136284882

强化学习同时被 2 个专栏收录

99 篇文章

订阅专栏

模仿学习

13 篇文章

订阅专栏

本文介绍了一种名为HYPO的方法，通过结合模仿学习和判别器机制，使智能体在稀疏奖励环境下利用少量非最优演示数据进行有效探索。该方法包括离线引导策略、判别器和在线智能体，旨在克服次优演示带来的保守性，促进智能体性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NeurIPS 2023 poster
Author：Hanlin Yang, Chao Yu, peng sun, Siji Chen
paper link
Keywords: reinforcement learning, sparse reward, exploration, learning from demonstrations
提出一种稀疏奖励环境下，利用少量非最优演示数据引导智能体高效探索的方法。

1. Abstract

利用高质量演示数据帮助智能体在稀疏奖励环境探索，是一种可行方法。但是这种演示数据的获取困难，因此探索如何使用次优数据非常重要。本文提出HYPO算法，利用模仿学习训练离线引导策略，帮助智能体在线探索，同时避免次优演示导致的保守策略。

2. Method

在这里插入图片描述

本文首先基于一个假设，即在初始阶段，得到演示数据的专家策略性能是优于智能体的策略，即专家策略优势函数值(Advantage value)大于智能体策略。

HYPO的三个关键组成为：判别器、离线引导着(offline guider)和在线agent。判别器通过区分轨迹数据来自智能体还是演示专家，进而控制guider的学习过程。而guider则是通过Behavior cloning，动态学习智能体以及专家，从而为智能体提供引导。智能体提炼(distill)guider策略中的知识并超越它。

2.1 Semi-supervised Discriminator Learning

为了防止分类器在次优专家数据上过拟合，将判别器优化看作是positive-unlabeled (PU) 奖励学习问题，智能体数据看作是无标签混合数据，这样guider也可以向智能体学习。考虑到仅靠(s,a)信息很难区分专家与智能体的轨迹，本文对判别器的输入添加 $\log\pi_b$ ，最小化下列损失函数优化判别器：
$\begin{aligned}\mathcal{L}_d&=\eta\underset{(s,a)\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}[\left.-\log d(s,a,\log\pi_b)\right]+\underset{(s,a)\sim\mathcal{B}}{\operatorname*{\mathbb{E}}}[\left.-\log\left(1-d(s,a,\log\pi_b)\right)\right]\\&-\eta\underset{(s,a)\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}[\left.-\log\left(1-d(s,a,\log\pi_b)\right)\right].\end{aligned}$
其中，超参数 $\eta$ 会随着学习进程而增加。

2.2 Adaptive Target for Offline Imitation

单纯的BC操作无法让策略超越演示数据的专家策略，因此HYPO中的 $\pi_b$ 不仅利用离线准假数据，还采样了agent在线交互数据。对其优化采用了两个自适应权重 $\mathcal{F}_{\mathrm{Expert}}(d)\mathrm{~和~}\mathcal{G}_{\mathrm{Agent}}(d)$ ，然后最小化下列损失函数
$\mathcal{L}_{\pi_b}=\operatorname*{\mathbb{E}}_{(s,a)\sim\mathcal{D}}\left[-\log\pi_b(a|s)\cdot\mathcal{F}\left(d(s,a,\log\pi_b)\right)\right]+\operatorname*{\mathbb{E}}_{(s,a)\sim\mathcal{B}}\left[-\log\pi_b(a|s)\cdot\mathcal{G}\left(d(s,a,\log\pi_b)\right)\right]$

理想中的权重应该在初始阶段迫使 $\pi_b$ 靠近专家，并增加 $\mathcal{L}_d$ 保证判别器的鲁棒性(对抗)。启发于对抗鲁棒性研究以及加权判别器研究,权重函数变化如下：
$\mathcal{F}_\text{Expert}(d)=\alpha-\frac{\eta}{d(1-d)},\quad\mathcal{G}_{\Lambda\text{gent}} ( d ) = \frac { 1 }{ 1 - d },$
在训练初期 $\eta$ 值较小，因此对判别器的变化不敏感，容易引导智能体策略模仿专家测量；而随着 $\eta$ 增加，判别器逐渐重要起来。来自专家数据集的(s,a)权重值 $\mathcal{F}$ 降低，引导智能体策略靠近 $\pi_b$ 。而对于 $\mathcal{B}$ 的数据，若判别器判断其类似于专家，则鼓励其模仿专家数据。

2.3 Performance Improvement of Online Learning

基于PPO的优化目标，额外添加一项约束来控制guider对智能体策略的引导：
$J_{\hat{\pi}}^{\text{HYPO}}(\theta)=\mathbb{E}_{t}\Big[\min\Big(r_{t}(\theta)A_{t},\mathrm{clip}\big(r_{t}(\theta),1-\epsilon,1+\epsilon\big)A_{t}\Big)-CD_{\text{KL}}(\hat{\pi}||\pi_{b})\Big]$
其中C是一项递减的参数，防止智能体策略学习到归于保守的策略。