Offline RL ：Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief

最新推荐文章于 2025-11-30 18:24:05 发布

原创

最新推荐文章于 2025-11-30 18:24:05 发布 · 965 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

NIPS 2022 Oral
paper
code

Intro

文章研究了基于模型的离线强化学习（RL），旨在通过利用先前收集的静态数据集和动态模型来寻找高回报的策略。虽然通过重用静态数据集学习动态模型，其泛化能力如果得到适当利用，可以促进策略学习。然而，现有工作通过奖励惩罚来量化预测动态的不确定性，可能会导致模型利用和风险规避之间的意外权衡。因此，本文提出一种新方法，通过维持一个动态的信念分布，并通过对信念进行偏向悲观的采样来评估/优化策略。这种采样过程基于离线RL的交替马尔可夫博弈（AMG）公式，自然地引入了一种更新的动态信念，称为"悲观主义调节动态信念"（PMDB）。为了改进策略，作者设计了一种迭代正则化策略优化算法，并在一定条件下保证了单调改进。

Method

以往基于模型的方法，通过对模型预测的不确定性作为reward的惩罚项，一定程度导致保守行为估计。本文方法不采用对不确定性的度量。而是通过交替马尔可夫博弈推导出一种基于动态信念分布悲观采样方法来评估策略与价值函数。

AMG 与 Offline RL

AMG(交替马尔可夫游戏)指由2-players构成的零和博弈，其构成为 $(\mathcal{S},\bar{\mathcal{S}},\mathcal{A},\bar{\mathcal{A}},G,r,\rho_{0},\gamma)$ 。其状态转台转移为 $G(\bar{s}|s,a)$ 与 $G(s|\bar{s},\bar{a})$ 。在每一轮中，主玩家收到奖励者 $r (s, a)$ ，次玩家收到其负对应奖励 $- r (s, a)$ 。

在Offline RL中，对于主玩家，其状态空间S、动作空间A和奖励函数r与原始MDP中的相同。在主要玩家行动之后，游戏发出一组N大小的系统转换候选者 $\mathcal{T}_{sa}$ ，该集合随后充当次要玩家的状态。形式上， $\mathcal{T}_{sa}$ 的产生是根据
$G\left(\bar{s}=\mathcal{T}^{sa}|s,a\right)=\prod_{\tau^{sa}\in\mathcal{T}^{sa}}\mathbb{P}_T^{sa}(\tau^{sa}),$
其中 $\tau$ 表示合理的系统过渡， $\mathbb{P}$ 则是表示其信念分布。此时 $\mathcal{T}_{sa}$ 中的元素则是相互独立且同分布，天然的将不确定性引入进每一步的预测中。为了区分鲁棒RL中的不确定性集合，我们称之为候选集合。

次玩家将以候选集合作为状态，也可以作为动作表示次要玩家的行动是从候选集合中选择一个系统转换。此时次玩家将由候选集中采样的转换函数得到下一个状态 $s^{'}$
$G\left(s'|\bar{s}=\mathcal{T}^{sa},\bar{a}=\tau^{sa}\right)=\tau^{sa}(s'),$
主玩家接受状态 $s^{'}$ ,游戏继续。
具有策略π的主要参与者的累积折扣奖励可以写成:
$J(\pi):=\mathbb{E}_{\rho_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_0\in\mathcal{T}_0}^k\left[\mathbb{E}_{\tau_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_1\in\mathcal{T}_1}^k\cdots\left[\mathbb{E}_{\tau_\infty,\pi}\left[\sum_{t=0}^\infty\gamma^tr(s_t,a_t)\right]\right]\right]$