ICML 2022
paper
Introduction
利用Transformer对强化学习进行序列建模在离线强化学习中展露头角,但是无法避免的是这种方法受限于离线数据的质量,因此本文将其结合到online的在线微调过程,进而形成本文ODT。为了解决从offline到online过程中的performance drop,文章提出两点:1)采用随即策略扩大探索,并采用策略熵进一步优化探索 ,2)扩展Hindsight experience replaybuffer(HER)
Method
2.1 ODT
本文方法是基于Transformer + RL的offline方法Decision Transformer(DT)。

然而将其简单的从offline迁移到online会出现崩溃,改进的第一步便是提出一种广义的概率学习目标,即学习一种随即策略最大化其似然函数,例如该策略是具有对角协方差矩阵的多元高斯分布,用于模拟状态和rtg条件下的动作分布。其中rgt表示一条轨迹从t时刻到结束的累计奖励: g t = ∑ t ′ = t ∣ τ ∣ r t ′ , g_{t}=\sum_{t^{\prime}=t}^{|\tau|}r_{t^{\prime}}, gt=∑t′=t∣τ∣rt′,
π θ ( a t ∣ s − K , t , g − K , t ) = N ( μ θ ( s − K , t , g − K , t ) , Σ θ ( s − K , t , g − K , t ) ) , ∀ t , \pi_{\theta}(a_{t}|\mathbf{s}_{-K,t},\mathbf{g}_{-K,t}) = \mathcal{N}(\mu_{\theta}(\mathbf{s}_{-K,t},\mathbf{g}_{-K,t}),\Sigma_{\theta}(\mathbf{s}_{-K,t},\mathbf{g}_{-K,t})),\forall t, πθ(at∣s−K,t,g−K,t)=N(μθ(s−K,t,g−K,t),Σ

本文介绍了一种结合Transformer和RL的在线微调方法ODT,解决离线到在线强化学习性能下降问题。通过随机策略探索和策略熵优化,以及扩展HERbuffer,文章提出了新的学习目标和ReplayBuffer策略。
最低0.47元/天 解锁文章
457

被折叠的 条评论
为什么被折叠?



