Offline RL :Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief

NIPS 2022 Oral
paper
code

Intro

文章研究了基于模型的离线强化学习(RL),旨在通过利用先前收集的静态数据集和动态模型来寻找高回报的策略。虽然通过重用静态数据集学习动态模型,其泛化能力如果得到适当利用,可以促进策略学习。然而,现有工作通过奖励惩罚来量化预测动态的不确定性,可能会导致模型利用和风险规避之间的意外权衡。因此,本文提出一种新方法,通过维持一个动态的信念分布,并通过对信念进行偏向悲观的采样来评估/优化策略。这种采样过程基于离线RL的交替马尔可夫博弈(AMG)公式,自然地引入了一种更新的动态信念,称为"悲观主义调节动态信念"(PMDB)。为了改进策略,作者设计了一种迭代正则化策略优化算法,并在一定条件下保证了单调改进。

Method

以往基于模型的方法,通过对模型预测的不确定性作为reward的惩罚项,一定程度导致保守行为估计。本文方法不采用对不确定性的度量。而是通过交替马尔可夫博弈推导出一种基于动态信念分布悲观采样方法来评估策略与价值函数。

AMG 与 Offline RL

AMG(交替马尔可夫游戏)指由2-players构成的零和博弈,其构成为 ( S , S ˉ , A , A ˉ , G , r , ρ 0 , γ ) (\mathcal{S},\bar{\mathcal{S}},\mathcal{A},\bar{\mathcal{A}},G,r,\rho_{0},\gamma) (S,Sˉ,A,Aˉ,G,r,ρ0,γ)。其状态转台转移为 G ( s ˉ ∣ s , a ) G(\bar{s}|s,a) G(sˉs,a) G ( s ∣ s ˉ , a ˉ ) G(s|\bar{s},\bar{a}) G(ssˉ,aˉ)。在每一轮中,主玩家收到奖励者 r ( s , a ) r(s, a) r(s,a),次玩家收到其负对应奖励 − r ( s , a ) -r(s, a) r(s,a)

在Offline RL中,对于主玩家,其状态空间S、动作空间A和奖励函数r与原始MDP中的相同。在主要玩家行动之后,游戏发出一组N大小的系统转换候选者 T s a \mathcal{T}_{sa} Tsa,该集合随后充当次要玩家的状态。形式上, T s a \mathcal{T}_{sa} Tsa的产生是根据
G ( s ˉ = T s a ∣ s , a ) = ∏ τ s a ∈ T s a P T s a ( τ s a ) , G\left(\bar{s}=\mathcal{T}^{sa}|s,a\right)=\prod_{\tau^{sa}\in\mathcal{T}^{sa}}\mathbb{P}_T^{sa}(\tau^{sa}), G(sˉ=Tsas,a)=τsaTsaPTsa(τsa),
其中 τ \tau τ表示合理的系统过渡, P \mathbb{P} P则是表示其信念分布。此时 T s a \mathcal{T}_{sa} Tsa中的元素则是相互独立且同分布,天然的将不确定性引入进每一步的预测中。为了区分鲁棒RL中的不确定性集合,我们称之为候选集合。

次玩家将以候选集合作为状态,也可以作为动作表示次要玩家的行动是从候选集合中选择一个系统转换。此时次玩家将由候选集中采样的转换函数得到下一个状态 s ′ s' s
G ( s ′ ∣ s ˉ = T s a , a ˉ = τ s a ) = τ s a ( s ′ ) , G\left(s'|\bar{s}=\mathcal{T}^{sa},\bar{a}=\tau^{sa}\right)=\tau^{sa}(s'), G(ssˉ=Tsa,aˉ=τsa)=τsa(s),
主玩家接受状态 s ′ s' s,游戏继续。
具有策略π的主要参与者的累积折扣奖励可以写成:
J ( π ) : = E ρ 0 , π , P T N ⌊ min ⁡ ⌋ τ 0 ∈ T 0 k [ E τ 0 , π , P T N ⌊ min ⁡ ⌋ τ 1 ∈ T 1 k ⋯ [ E τ ∞ , π [ ∑ t = 0 ∞ γ t r ( s t , a t ) ] ] ] J(\pi):=\mathbb{E}_{\rho_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_0\in\mathcal{T}_0}^k\left[\mathbb{E}_{\tau_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_1\in\mathcal{T}_1}^k\cdots\left[\mathbb{E}_{\tau_\infty,\pi}\left[\sum_{t=0}^\infty\gamma^tr(s_t,a_t)\right]\right]\right] J(π):=Eρ0,π,PTNminτ0T<

### 基于上下文的离线元强化学习(COMRL)概述 基于上下文的离线元强化学习(Context-based Offline Meta-Reinforcement Learning, COMRL)是一种结合了元学习和离线强化学习的技术,旨在通过从一组预定义的任务中提取通用知识来加速新任务的学习。这种方法特别适用于数据有限或交互成本较高的场景[^1]。 COMRL的核心思想是利用元学习机制捕获任务之间的共享结构,并通过离线数据训练策略以适应未知但相关的新任务。这种方法通常包括以下关键组件: - **任务分布建模**:通过对任务的先验知识进行建模,生成适合的上下文表示。 - **策略优化**:基于上下文信息调整策略参数,使其能够快速适应新任务。 - **离线数据使用**:利用历史数据而非实时交互来提升策略性能。 ### 实现方法 #### 1. 上下文编码器的设计 上下文编码器是COMRL中的重要组成部分,用于从任务数据中提取上下文信息。一种常见的实现方式是使用神经网络对任务数据进行聚合,并生成一个固定维度的上下文向量。例如,可以通过以下代码实现一个简单的上下文编码器: ```python import torch import torch.nn as nn class ContextEncoder(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(ContextEncoder, self).__init__() self.fc1 = nn.Linear(input_dim, hidden_dim) self.fc2 = nn.Linear(hidden_dim, output_dim) def forward(self, x): x = torch.mean(x, dim=0) # 对任务数据进行平均操作 x = torch.relu(self.fc1(x)) return self.fc2(x) ``` #### 2. 策略网络的构建 策略网络需要能够根据上下文信息动态调整其行为。通常,这可以通过将上下文向量与状态输入拼接后传递给策略网络实现。以下是一个示例代码: ```python class PolicyNetwork(nn.Module): def __init__(self, state_dim, context_dim, action_dim): super(PolicyNetwork, self).__init__() self.fc1 = nn.Linear(state_dim + context_dim, 128) self.fc2 = nn.Linear(128, action_dim) def forward(self, state, context): x = torch.cat([state, context], dim=-1) x = torch.relu(self.fc1(x)) return torch.tanh(self.fc2(x)) # 假设动作空间为[-1, 1] ``` #### 3. 训练过程 在训练过程中,COMRL模型需要同时优化上下文编码器和策略网络。常用的损失函数包括策略梯度损失和值函数损失。以下是一个简化的训练框架: ```python def train_comrl(policy_net, context_encoder, data_buffer, optimizer): for batch in data_buffer: states, actions, rewards, contexts = batch predicted_actions = policy_net(states, context_encoder(contexts)) # 计算策略梯度损失 loss = -torch.mean(rewards * predicted_actions) optimizer.zero_grad() loss.backward() optimizer.step() ``` ### 相关研究论文 以下是一些关于COMRL的重要研究论文: - **"Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks"** 提出了元学习的基本框架,为COMRL提供了理论基础[^2]。 - **"Offline Meta-Reinforcement Learning with Value Functions"** 探讨了如何在离线设置中应用元强化学习[^3]。 - **"Contextualized Meta-Policy Search"** 引入了上下文信息以增强策略的泛化能力[^4]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值