Pretrain RL:Pre-Training Goal-based Models for Sample-Efficient Reinforcement Learning

收到求救信号

已于 2024-08-09 09:44:38 修改

阅读量1k

点赞数 28

CC 4.0 BY-SA版权

分类专栏：强化学习 O2O RL ICLR 2024 文章标签：人工智能

于 2024-03-09 17:45:43 首次发布

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/136585942

强化学习同时被 3 个专栏收录

100 篇文章

订阅专栏

O2O RL

23 篇文章

订阅专栏

ICLR 2024

3 篇文章

订阅专栏

本文介绍了一种名为PTGM的方法，该方法通过预训练目标导向模型来提高强化学习在复杂任务中的样本效率。PTGM利用任务无关的数据集进行预训练，并采用聚类技术减少高维状态空间的影响，还引入了目标先验模型以指导策略学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ICLR 2024 Oral
paper

Introduction

在大型任务无关数据集上预训练可以帮助RL提高在复杂任务上的样本采样效率。本文提出的PTGM便是构造为下游任务生成goal的上层策略，指导下游任务的goal-conditioned 低级高效探索利用。而为了解决高维空间产生的高维goal以及保持技能表示，提出基于clustering形成离散化的high-level策略的动作空间。此外，在线RL过程中，引入一个预训练的goal prior模型，通过KL散度对high-level的策略进行正则化，保证在线训练的稳定高效。
在这里插入图片描述

Method

假设任务无关数据集来自相同环境、不同任务且由状态动作对构成 $D=\{\tau=\{(s_{i},a_{i})\}_{i=0}^{T}\}$ 。PTGM首先预训练一个goal-conditioned的低级策略 $P_\phi(a_{t}|s_t,s^g)$ 。PTGM从数据集中采样k-steps的连续数据，将最后一步的状态作为goal，然后通过最小化负对数似然训练参数：
$\mathcal{L}(\phi)=\mathbb{E}_D\left[-\log P_\phi(a_i|s_i,s^g)\right]$

CLUSTERING IN THE GOAL Space

为了解决高维goal引入高维状态空间导致RL的采样效率降低，算法从数据集采用t-SNE对状态降维，利用K-means得到N个聚类中心 $G=\{i:s_{i}^{g}\}_{i=1}^{N},$ 。

PRE-TRAINING THE GOAL PRIOR MODEL

由于高级策略缺乏goal相关的先验知识，因此文章基于数据集训练一个先验模型。
goal先验模型 $\pi_{\psi}^{p}(a^{h}|s)$ 与高级策略结构相同，其中 $a^h$ 表示goal聚类中心的index。根据index选择对应的聚类中心，便实现预测当前状态下未来goal的分布。

模型训练时，类似于训练low-level策略时，选择k-steps后的状态作为goal $s^{g}$ ，采用余弦相似度得到监督训练的标签： $a^h=\arg\max_{i\in[N]}\left(\frac{s_{i}^{g}\cdot s^{g}}{\|s_{i}^{g}\|\cdot\|s^{g}\|}\right)$

而连续空间下，通过最小化负对数似然优化：
$\mathcal{L}(\psi)=\mathbb{E}_{D}\left[-\log\pi_{\psi}^{p}(a^{h}|s_{t})\right].$
goal先验模型将作为 RL期间高级策略的正则化器，提供内在奖励来指导代理对数据集中可能目标的探索。

REINFORCEMENT LEARNING WITH PTGM

基于goal cluster G、预训练low-level policy $P_\phi$ 与goal prior model $\pi_{\psi}^{p}$ ，便开始训练高级策略。

每一步根据高级策略 $\pi_{\theta}(a^{h}|s)$ 输出的center index，选择对应的goal state，fixed low-level policy将基于goal与环境进行k-steps的交互。最大化累计奖励优化高级策略参数。下：
$J(\theta)=\mathbb{E}\pi_{\theta}\left[\sum_{t=0}^{\infty}\gamma^{t}\left(\sum_{i=kt}^{(k+1)t}R(s_{i},a_{i})-\alpha D_{\text{Kl.}}\left(\pi_{\psi}^{p}(a^{h}|s_{kt})\|\pi_{\theta}(a^{h}|s_{kt})\right)\right)\right]$