O2O:Online Decision Transformer(ODT)

最新推荐文章于 2025-04-17 14:52:47 发布

收到求救信号

最新推荐文章于 2025-04-17 14:52:47 发布

阅读量1.7k

点赞数 28

CC 4.0 BY-SA版权

分类专栏： O2O RL 强化学习文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/136452750

强化学习同时被 2 个专栏收录

100 篇文章

订阅专栏

O2O RL

23 篇文章

订阅专栏

本文介绍了一种结合Transformer和RL的在线微调方法ODT，解决离线到在线强化学习性能下降问题。通过随机策略探索和策略熵优化，以及扩展HERbuffer，文章提出了新的学习目标和ReplayBuffer策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ICML 2022
paper

Introduction

利用Transformer对强化学习进行序列建模在离线强化学习中展露头角，但是无法避免的是这种方法受限于离线数据的质量，因此本文将其结合到online的在线微调过程，进而形成本文ODT。为了解决从offline到online过程中的performance drop,文章提出两点：1）采用随即策略扩大探索，并采用策略熵进一步优化探索，2）扩展Hindsight experience replaybuffer（HER）

Method

2.1 ODT

本文方法是基于Transformer + RL的offline方法Decision Transformer(DT)。
在这里插入图片描述

然而将其简单的从offline迁移到online会出现崩溃，改进的第一步便是提出一种广义的概率学习目标，即学习一种随即策略最大化其似然函数，例如该策略是具有对角协方差矩阵的多元高斯分布，用于模拟状态和rtg条件下的动作分布。其中rgt表示一条轨迹从t时刻到结束的累计奖励： $g_{t}=\sum_{t^{\prime}=t}^{|\tau|}r_{t^{\prime}},$
$\pi_{\theta}(a_{t}|\mathbf{s}_{-K,t},\mathbf{g}_{-K,t}) = \mathcal{N}(\mu_{\theta}(\mathbf{s}_{-K,t},\mathbf{g}_{-K,t}),\Sigma_{\theta}(\mathbf{s}_{-K,t},\mathbf{g}_{-K,t})),\forall t,$
最大化对数似然，即最小化负对数似然

$\begin{aligned}J(\theta)&=\frac{1}{K}\mathbb{E}_{(\mathbf{a},\mathbf{s},\mathbf{g})\sim\mathcal{T}}\big[-\log\pi_\theta(\mathbf{a}|\mathbf{s},\mathbf{g})\big]\\&=\frac{1}{K}\mathbb{E}_{(\mathbf{a},\mathbf{s},\mathbf{g})\sim\mathcal{T}}\big[-\sum_{k=1}^{K}\log\pi_\theta(a_k|\mathbf{s}_{-K,k},\mathbf{g}_{-K,k})\big]\end{aligned}$
传统的DT方法没有与环境交互，所以没有对探索进行量化。本文基于策略熵实现：
$\begin{aligned}H_\theta^T[\mathbf{a}|\mathbf{s},\mathbf{g}]=&\frac{1}{K}\mathbb{E}_{(\mathbf{s},\mathbf{g})\sim\mathcal{T}}\big[H[\pi_\theta(\mathbf{a}|\mathbf{s},\mathbf{g})]\big]\\=&\frac{1}{K}\mathbb{E}_{(\mathbf{s},\mathbf{g})\sim\mathcal{T}}\big[\sum_{k=1}^KH\big[\pi_\theta(a_k|\mathbf{s}_{-K,k},\mathbf{g}_{-K,k})\big]\big]\end{aligned}$
其中 $H[\pi_{\theta}(a_{k})]$ 表示Shannon熵。类似于SAC，对策略熵设置下界保证其探索，那么优化问题转化为：
$\min_\theta J(\theta) \quad\text{subject to} \quad H_\theta^T[\mathbf{a}|\mathbf{s},\mathbf{g}]\geqslant\beta$
该问题转化为对偶问题： $\max_{\lambda\geqslant0}\min_\theta L(\theta,\lambda) :J(\theta)+\lambda(\beta-H_{\theta}^{\mathcal{T}}[\mathrm{a|s},\mathrm{g}])$

进一步交替优化参数 $\theta$ 与 $\lambda$ 。优化 $\theta$ 时，固定参数 $\lambda$ ，即优化下述问题： $\min_\theta J(\theta)-\lambda H_\theta^T[\mathbf{a}|\mathbf{s},\mathbf{g}]$

优化 $\lambda$ 时，固定参数 $\theta$ ，即优化下述问题： $\min\limits_{\lambda\geqslant0}\lambda(H_\theta^T[\mathbf{a}|\mathbf{s},\mathbf{g}]-\beta)$

不同于SAC的最大化累计回报的优化目标，本方法关注的是动作序列的监督学习。严格地说， $H_\theta^T[\mathbf{a}|\mathbf{s},\mathbf{g}]$ 是交叉条件熵，对离线与在线数据发挥不同作用。离线时控制分布不匹配的程度（对最小负对数似然添加正则化项， $\lambda$ 控制正则程度），在线时则鼓励策略进行探索。