O2O:Improving Offline-to-Online Reinforcement Learning with Q-Ensemble

原创

已于 2024-11-25 20:54:28 修改 · 602 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-03-09 11:31:20 首次发布

本文探讨了如何在离线学习的保守估计与在线阶段的高效探索间找到平衡，提出了Ensemble-basedO2O算法E2O，利用Q-ensemble策略和不同的Q估计形式，如MinQ、MeanQ等，以提高学习效率并保持训练稳定性。文中还比较了不同优化探索方法，如BootstrappedDQN和OAC/SUNRISE。

ICML workshop 2023
paper
Q-ensemble 大法好

Introduction

保守的离线学习方法在迁移到在线过程中，会由于保守的Q值估计限制智能体在线探索，导致策略缓慢提升；而若不保持保守的估计又容易因为OOD的数据导致Q过估计，进而让学习不稳定。如下图a所示
在这里插入图片描述
如何找到一种方法既能保守估计又能不限制在线探索？Q-ensemble就能给出解决方法。而一系系列的关于基于ensemble Q的估计方法也证明有效。正如上图中a采用CQL-N以及SAC-N结合的O2O方法。图c则则证明ensemble的方式让策略有可选择的动作分布，相较于保守的CQL更为广泛。基于上述发现，本文提出Ensemble-based O2O算法E2O。

Method

Q ensemble

E2O在离线学习阶段，基于CQL算法对target Q设置多个Q估计并选择最小值作为最终结果。如果在线阶段也采用相同ensemble估计形式，虽然不会出现performance drop,渐进稳定性也较好。但是无法快速改进。因此，下面重点转移到分析我们是否可以适当地放松在线阶段Q值的悲观估计，以进一步提高学习效率，同时确保稳定的训练。

在这里插入图片描述