ICML workshop 2023
paper
Q-ensemble 大法好
Introduction
保守的离线学习方法在迁移到在线过程中,会由于保守的Q值估计限制智能体在线探索,导致策略缓慢提升;而若不保持保守的估计又容易因为OOD的数据导致Q过估计,进而让学习不稳定。如下图a所示
如何找到一种方法既能保守估计又能不限制在线探索?Q-ensemble就能给出解决方法。而一系系列的关于基于ensemble Q的估计方法也证明有效。正如上图中a采用CQL-N以及SAC-N结合的O2O方法。图c则则证明ensemble的方式让策略有可选择的动作分布,相较于保守的CQL更为广泛。基于上述发现,本文提出Ensemble-based O2O算法E2O。
Method
Q ensemble
E2O在离线学习阶段,基于CQL算法对target Q设置多个Q估计并选择最小值作为最终结果。如果在线阶段也采用相同ensemble估计形式,虽然不会出现performance drop,渐进稳定性也较好。但是无法快速改进。因此,下面重点转移到分析我们是否可以适当地放松在线阶段Q值的悲观估计,以进一步提高学习效率,同时确保稳定的训练。
Loosing Pessimism
对于在线阶段Q估计,如何放松悲观估计本文提出现有的几种形式(1)Min Q: 最小Q (2)Mean Q:均值 (3)REM:随机抽样取均值 (4)RandomMinPair:REDQ采用的方法,随机采样两个Q求其小 (5)WeightedMinPair:本文采用的对RandomMinPair中两个Q取均值。
Optimistic Exploration
对Q进行放松后便是提高策略探索能力。文章比较了三种方法:(1)Bootstrapped DQN (2)OAC (3)SUNRISE.
后记
这篇文章又出现在IJCAI 2024