离线强化学习(Offline RL)系列3: (算法篇) REM(Random Ensemble Mixture)算法详解与实现

【更新记录】

论文信息:Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi: “An Optimistic Perspective on Offline Reinforcement Learning”, 2019, Proceedings of the 37th International Conference on Machine Learning, PMLR 119:104-114, 2020; arXiv:1907.04543.

本文是Google Brain团队与Alberta大学合作,在2020年提出的一篇基于DQN replay dataset的鲁棒(roboust)离线强化学习解决方法,发表于ICML顶会上,此工作发布了60多个Offline强化学习dataset,该团队号称规模化是ImageNet的60 × \times × 3.5倍(一如既往的Google风格,规模就是大,不服来干),另外文章如其名 “An Optimistic Perspective”, 说明OfflineRL还是不错的!

摘要: 前几篇博客介绍的BCQ、BEAR等方法都是去讨论如何消除distribution mismatch问题的方法,本文作者大胆的提出了在不去修正该问题(without an explicit correction for distribution mismatch)的情况下能否达到state of the art的效果问题,并提出了随机集成混合方法(Random Ensemble Mixture, REM) 方法,它是一种使用多个参数化 Q Q Q 函数来估计 Q Q Q 值,并将多个 Q Q Q 值估计的凸组合看作是 Q Q Q 值估计本身,强制执行最佳的贝尔曼一致性的方法,结果表明效果不错。

1. 问题及数据集

1.1 问题描述

老生常谈一下offLine RL和off-policy 的区别以及优势,老爷子曾经说过一句话,挺有意思的,mark一下,也是作为off-policy和offline发展的一个引子吧:

The potential for off-policy learning remains tantalizing, the best way to achieve it still a mystery.” —— Sutton & Barto

在离线强化学习中目前存在的几个经典问题就是: 分布偏移,OOD、不稳定、没有探索导致效果很难达到Online等。如何解决这些问题呢?作者首先制作了一个最全的atari数据集,然后在上面搞起来。

1.2 数据集制作

作者在所有 60 款 Atari 2600 游戏上训练一个 DQN 智能体,并按照标准格式将 2 亿帧经验元组(观察、动作、奖励、下一步) 观察)(大约 5000 万)保存起来(其中seed=5)

数据的使用方式如下查看详细过程

2. 论文方法

2.1 基础方法总结

2.1.1 Ensemble-DQN方法

DQN算法大家再熟悉不过了,上过顶会,登过Nature, 其中有经典的一种变种改进就是Ensemble-DQN,其核心思想是: Q Q Q 函数从不同的参数初始化开始,以相同的顺序使用相同的小批进行优化。损失 L ( θ ) \mathcal{L}(\theta) L(θ) 采用下面公式,最终训练多个 Q 值估计并将它们平均以进行评估。
L ( θ ) = 1 K ∑ k = 1 K E s , a , r , s ′ ∼ D [ ℓ λ ( Δ θ k ( s , a , r , s ′ ) ) ] Δ θ k ( s , a , r , s ′ ) = Q θ k ( s , a ) − r − γ max ⁡ a ′ Q θ ′ k ( s ′ , a ′ ) \begin{gathered} \mathcal{L}(\theta)=\frac{1}{K} \sum_{k=1}^{K} \mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)\right)\right] \\ \Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)=Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right) \end{gathered} L(θ)=K1k=1KEs,a,r,sD[λ(Δθk(s,a,r,s))]Δθk(s,a,r,s)=Qθk(s,a)rγamaxQθk(s,a)

2.1.2 Distributional RL

这篇文章是Bellemare提出的将值函数一个值转变为一个分布去表示,避免了值得单一影响,更新过程如下,原文可参考 A distributional perspective on reinforcement learning(ICML2017)
Z ∗ ( s , a ) = D r + γ Z ∗ ( s ′ , argmax ⁡ a ′ ∈ A Q ∗ ( s ′ , a ′ ) ) ,  where  r ∼ R ( s , a ) , s ′ ∼ P ( ⋅ ∣ s , a ) . \begin{array}{r} Z^{*}(s, a) \stackrel{D}{=} r+\gamma Z^{*}\left(s^{\prime}, \operatorname{argmax}_{a^{\prime} \in \mathcal{A}} Q^{*}\left(s^{\prime}, a^{\prime}\right)\right), \\ \text { where } r \sim R(s, a), s^{\prime} \sim P(\cdot \mid s, a) . \end{array} Z(s,a)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@RichardWang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值