NeurIPS论文解读｜Decision Transformer: 通过序列建模解决离线强化学习问题

最新推荐文章于 2025-04-17 14:52:47 发布

OpenDILab开源决策智能平台

最新推荐文章于 2025-04-17 14:52:47 发布

阅读量2.8k

点赞数 2

分类专栏： OpenDILab 强化学习文章标签： transformer 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/m0_55289267/article/details/125871135

版权

决策Transformer（DT）是一种纯监督学习方法，用于解决离线强化学习问题，它将RL视为自回归序列建模问题。DT通过学习状态、动作和回报之间的关系，取代了传统RL的马尔科夫决策过程。与行为克隆相比，DT在序列建模中考虑了更多的上下文信息，表现出更好的性能。在实验中，DT在Atari和D4RL-Mujoco任务中取得了显著的成果，展示了其在长期信用分配和稀疏奖励环境中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天为大家推荐一篇2021年被NeurIPS收录的一篇论文。

《Decision Transformer: reinforcement learning via sequence modeling》

推荐读者将本博客结合原论文食用。如有谬误偏颇烦请指出！

论文链接：

https://openreview.net/forum?id=a7APmM4B9d

1. 论文概览

先谈谈我的看法：在我看来，Decision Transformer与传统的RL算法最大的区别在于它训练的目标不再是为了最大化累计折扣奖励，而是学习从 $Rt$ ， $st$ 到 $at$ 的映射。为什么在训练的时候给medium级别的示例序列，而推断的时候我们调大 $Rt$ ，就能输出更好的动作？其中还是存在着“拼接”，由于DT是以自回归的方式逐步地成动作以及给定奖励，那么在某一个状态下，采取什么样的动作能得到什么样的奖励，是网络完全有可能学习到的。最后体现在整条序列上的就是，网络完全有可能学习到如何“拼接”出能产生给定的 $Rt$ 动作序列。

Decision Transformer(DT)[1]是纯监督学习，用来解决Offline Reinforcement Learning的问题。它不再将强化学习建模为马尔科夫决策过程(MDP)，具体表现在网络在训练时拿到了非常long-term的信息，完全不符合马尔科夫性了。

具体而言，DT将RL当作一个自回归的序列建模问题，建模回报序列(return-to-go)、状态序列(state)与动作序列(action)之间的关系。与一般认为的行为克隆(behavior cloning)只建模状态和动作关系相比，额外考虑了回报以及过去的三元组（ $Rt$ ， $St$ ， $At$ ）序列。最后的效果非常好，击败了一众当时顶尖的离线强化学习方法。