Offline RL:RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning

NIPS 2022
paper
code

Intro

Robust Adversarial Model-Based Offline RL (RAMBO): 一种新的基于模型的离线强化学习方法。
将问题表述为与对抗性环境模型的两玩家零和博弈。 模型被训练以最小化价值函数,同时仍然准确预测数据集中的转换,迫使策略在数据集未覆盖的区域采取保守行动。通过交替优化策略和对抗性地优化模型来近似解决两玩家博弈。

Method

鲁棒对抗强化学习(RARL)可以看作2-players的零和游戏,其公式化表达为 π = arg ⁡ max ⁡ π ∈ Π min ⁡ π ˉ ∈ Π ˉ V M π , π ˉ \pi=\arg\max_{\pi\in\Pi}\min_{\bar{\pi}\in\bar{\Pi}}V_M^{\pi,\bar{\pi}} π=argmaxπΠminπˉΠˉVMπ,πˉ。本文同样基于RARL的架构,但是将对手策略 π ˉ \bar{\pi} πˉ设定为从离线数据中学习的环境动力学习模型 T ( ⋅ ∣ s , a ) T(\cdot|s,a) T(s,a)
问题形式化为
在这里插入图片描述
T ^ ( s ′ , r ∣ s , a ) \widehat{T}(s',r|s,a) T (s,rs,a)表示优化得到的动力学习模型。该问题受限于数据集D,对于D之外的数据没有限制。而CPPO则给出一个理论保证问题 1 输出一个策略 π \pi π,有较高概率与数据集覆盖的状态-动作分布所得到的任意策略 π ∗ \pi^* π一样好,二者策略间的差距存在一个upper bound。
在这里插入图片描述
在这里插入图片描述
此外,问题 1 定义的集合中,最坏模型下的值函数是真实环境中价值函数的下界,如命题 1 所示
在这里插入图片描述
那门最大化这个下界便是实现在真实MDP的价值优化。为了问题1,提出RAMBO算法。

RAMBO

Model Gradient

问题1对模型的优化是最小化函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值