O2O:Online Decision Transformer(ODT)

本文介绍了一种结合Transformer和RL的在线微调方法ODT,解决离线到在线强化学习性能下降问题。通过随机策略探索和策略熵优化,以及扩展HERbuffer,文章提出了新的学习目标和ReplayBuffer策略。

ICML 2022
paper

Introduction

利用Transformer对强化学习进行序列建模在离线强化学习中展露头角,但是无法避免的是这种方法受限于离线数据的质量,因此本文将其结合到online的在线微调过程,进而形成本文ODT。为了解决从offline到online过程中的performance drop,文章提出两点:1)采用随即策略扩大探索,并采用策略熵进一步优化探索 ,2)扩展Hindsight experience replaybuffer(HER)

Method

2.1 ODT

本文方法是基于Transformer + RL的offline方法Decision Transformer(DT)
在这里插入图片描述

然而将其简单的从offline迁移到online会出现崩溃,改进的第一步便是提出一种广义的概率学习目标,即学习一种随即策略最大化其似然函数,例如该策略是具有对角协方差矩阵的多元高斯分布,用于模拟状态和rtg条件下的动作分布。其中rgt表示一条轨迹从t时刻到结束的累计奖励: g t = ∑ t ′ = t ∣ τ ∣ r t ′ , g_{t}=\sum_{t^{\prime}=t}^{|\tau|}r_{t^{\prime}}, gt=t=tτrt,
π θ ( a t ∣ s − K , t , g − K , t ) = N ( μ θ ( s − K , t , g − K , t ) , Σ θ ( s − K , t , g − K , t ) ) , ∀ t , \pi_{\theta}(a_{t}|\mathbf{s}_{-K,t},\mathbf{g}_{-K,t}) = \mathcal{N}(\mu_{\theta}(\mathbf{s}_{-K,t},\mathbf{g}_{-K,t}),\Sigma_{\theta}(\mathbf{s}_{-K,t},\mathbf{g}_{-K,t})),\forall t, πθ(atsK,t,gK,t)=N(μθ(sK,t,gK,t),Σ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值