Intro
Robust Adversarial Model-Based Offline RL (RAMBO): 一种新的基于模型的离线强化学习方法。
将问题表述为与对抗性环境模型的两玩家零和博弈。 模型被训练以最小化价值函数,同时仍然准确预测数据集中的转换,迫使策略在数据集未覆盖的区域采取保守行动。通过交替优化策略和对抗性地优化模型来近似解决两玩家博弈。
Method
鲁棒对抗强化学习(RARL)可以看作2-players的零和游戏,其公式化表达为 π = arg max π ∈ Π min π ˉ ∈ Π ˉ V M π , π ˉ \pi=\arg\max_{\pi\in\Pi}\min_{\bar{\pi}\in\bar{\Pi}}V_M^{\pi,\bar{\pi}} π=argmaxπ∈Πminπˉ∈ΠˉVMπ,πˉ。本文同样基于RARL的架构,但是将对手策略 π ˉ \bar{\pi} πˉ设定为从离线数据中学习的环境动力学习模型 T ( ⋅ ∣ s , a ) T(\cdot|s,a) T(⋅∣s,a)
问题形式化为

T ^ ( s ′ , r ∣ s , a ) \widehat{T}(s',r|s,a) T
(s′,r∣s,a)表示优化得到的动力学习模型。该问题受限于数据集D,对于D之外的数据没有限制。而CPPO则给出一个理论保证问题 1 输出一个策略 π \pi π,有较高概率与数据集覆盖的状态-动作分布所得到的任意策略 π ∗ \pi^* π∗一样好,二者策略间的差距存在一个upper bound。


此外,问题 1 定义的集合中,最坏模型下的值函数是真实环境中价值函数的下界,如命题 1 所示

那门最大化这个下界便是实现在真实MDP的价值优化。为了问题1,提出RAMBO算法。
RAMBO
Model Gradient
问题1对模型的优化是最小化函数

最低0.47元/天 解锁文章
965

被折叠的 条评论
为什么被折叠?



