ICLR 2024 Oral
paper
Introduction
在大型任务无关数据集上预训练可以帮助RL提高在复杂任务上的样本采样效率。本文提出的PTGM便是构造为下游任务生成goal的上层策略,指导下游任务的goal-conditioned 低级高效探索利用。而为了解决高维空间产生的高维goal以及保持技能表示,提出基于clustering形成离散化的high-level策略的动作空间。此外,在线RL过程中,引入一个预训练的goal prior模型,通过KL散度对high-level的策略进行正则化,保证在线训练的稳定高效。

Method
假设任务无关数据集来自相同环境、不同任务且由状态动作对构成 D = { τ = { ( s i , a i ) } i = 0 T } D=\{\tau=\{(s_{i},a_{i})\}_{i=0}^{T}\} D={
τ={(si,ai)}i=0T}。PTGM首先预训练一个goal-conditioned的低级策略 P ϕ ( a t ∣ s t , s g ) P_\phi(a_{t}|s_t,s^g) Pϕ(at∣st,sg)。PTGM从数据集中采样k-steps的连续数据,将最后一步的状态作为goal,然后通过最小化负对数似然训练参数:
L ( ϕ ) = E D [ − log P ϕ ( a i ∣ s i , s g ) ] \mathcal{L}(\phi)=\mathbb{E}_D\left[-\log P_\phi(a_i|s_i,s^g)\right] L(ϕ)=ED[−logPϕ(a

本文介绍了一种名为PTGM的方法,该方法通过预训练目标导向模型来提高强化学习在复杂任务中的样本效率。PTGM利用任务无关的数据集进行预训练,并采用聚类技术减少高维状态空间的影响,还引入了目标先验模型以指导策略学习。
最低0.47元/天 解锁文章
1818

被折叠的 条评论
为什么被折叠?



