【更新记录】
论文信息:Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi: “An Optimistic Perspective on Offline Reinforcement Learning”, 2019, Proceedings of the 37th International Conference on Machine Learning, PMLR 119:104-114, 2020; arXiv:1907.04543.
本文是Google Brain团队与Alberta大学合作,在2020年提出的一篇基于DQN replay dataset的鲁棒(roboust)离线强化学习解决方法,发表于ICML顶会上,此工作发布了60多个Offline强化学习dataset,该团队号称规模化是ImageNet的60 × \times × 3.5倍(一如既往的Google风格,规模就是大,不服来干),另外文章如其名 “An Optimistic Perspective”, 说明OfflineRL还是不错的!
摘要: 前几篇博客介绍的BCQ、BEAR等方法都是去讨论如何消除distribution mismatch问题的方法,本文作者大胆的提出了在不去修正该问题(without an explicit correction for distribution mismatch)的情况下能否达到state of the art的效果问题,并提出了随机集成混合方法(Random Ensemble Mixture, REM) 方法,它是一种使用多个参数化 Q Q Q 函数来估计 Q Q Q 值,并将多个 Q Q Q 值估计的凸组合看作是 Q Q Q 值估计本身,强制执行最佳的贝尔曼一致性的方法,结果表明效果不错。
1. 问题及数据集
1.1 问题描述
老生常谈一下offLine RL和off-policy 的区别以及优势,老爷子曾经说过一句话,挺有意思的,mark一下,也是作为off-policy和offline发展的一个引子吧:
“The potential for off-policy learning remains tantalizing, the best way to achieve it still a mystery.” —— Sutton & Barto
在离线强化学习中目前存在的几个经典问题就是: 分布偏移,OOD、不稳定、没有探索导致效果很难达到Online等。如何解决这些问题呢?作者首先制作了一个最全的atari数据集,然后在上面搞起来。
1.2 数据集制作
作者在所有 60 款 Atari 2600 游戏上训练一个 DQN 智能体,并按照标准格式将 2 亿帧经验元组(观察、动作、奖励、下一步) 观察)(大约 5000 万)保存起来(其中seed=5)
数据的使用方式如下查看详细过程:
2. 论文方法
2.1 基础方法总结
2.1.1 Ensemble-DQN方法
DQN算法大家再熟悉不过了,上过顶会,登过Nature, 其中有经典的一种变种改进就是Ensemble-DQN,其核心思想是: Q Q Q 函数从不同的参数初始化开始,以相同的顺序使用相同的小批进行优化。损失 L ( θ ) \mathcal{L}(\theta) L(θ) 采用下面公式,最终训练多个 Q 值估计并将它们平均以进行评估。
L ( θ ) = 1 K ∑ k = 1 K E s , a , r , s ′ ∼ D [ ℓ λ ( Δ θ k ( s , a , r , s ′ ) ) ] Δ θ k ( s , a , r , s ′ ) = Q θ k ( s , a ) − r − γ max a ′ Q θ ′ k ( s ′ , a ′ ) \begin{gathered} \mathcal{L}(\theta)=\frac{1}{K} \sum_{k=1}^{K} \mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)\right)\right] \\ \Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)=Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right) \end{gathered} L(θ)=K1k=1∑KEs,a,r,s′∼D[ℓλ(Δθk(s,a,r,s′))]Δθk(s,a,r,s′)=Qθk(s,a)−r−γa′maxQθ′k(s′,a′)
2.1.2 Distributional RL
这篇文章是Bellemare提出的将值函数一个值转变为一个分布去表示,避免了值得单一影响,更新过程如下,原文可参考 A distributional perspective on reinforcement learning(ICML2017)
Z ∗ ( s , a ) = D r + γ Z ∗ ( s ′ , argmax a ′ ∈ A Q ∗ ( s ′ , a ′ ) ) , where r ∼ R ( s , a ) , s ′ ∼ P ( ⋅ ∣ s , a ) . \begin{array}{r} Z^{*}(s, a) \stackrel{D}{=} r+\gamma Z^{*}\left(s^{\prime}, \operatorname{argmax}_{a^{\prime} \in \mathcal{A}} Q^{*}\left(s^{\prime}, a^{\prime}\right)\right), \\ \text { where } r \sim R(s, a), s^{\prime} \sim P(\cdot \mid s, a) . \end{array} Z∗(s,a)