Offline RL :Critic-Guided Decision Transformer for Offline Reinforcement Learning

AAAI 2023
paper
利用价值函数解决序列模型拼接能力的离线算法

Intro

文章提出了一种新的离线强化学习方法,名为“Critic-Guided Decision Transformer”(CGDT)。该方法基于“Return-Conditioned Supervised Learning”(RCSL)范式,旨在解决现有RCSL方法在处理随机环境和需要“stitching”能力的场景中的局限性。CGDT 结合了基于价值的方法来预测长期回报,并利用决策变换器(Decision Transformer)对轨迹进行建模。通过引入一个学习到的价值函数(即“critic”),CGDT 确保了指定目标回报与动作的预期回报之间的直接对齐。这种方法弥合了RCSL的确定性本质与基于价值的方法的概率特征之间的差距。在随机环境和D4RL基准数据集上的实证评估表明,CGDT 优于传统的RCSL方法。这些结果突出了CGDT 在离线RL领域的潜力,并扩展了RCSL在各种RL任务中的适用性。

Method

在这里插入图片描述

Asymmetric Critic Training

采用高斯部分对价值函数Q分布进行建模:
L Q ( ϕ ) = − ∣ τ c − I ( u > 0 ) ∣ log ⁡ Q ϕ ( R t ∣ τ 0 : t − 1 , s t , a t ) , ( 2 ) \mathcal{L}_Q(\phi)=-|\tau_c-\mathbb{I}(u>0)|\log Q_\phi(R_t|\tau_{0:t-1},s_t,a_t),(2) LQ(ϕ)=τcI(u>0)logQϕ(Rtτ0:t1,st,at),(2)
其中 : u = ( R t − μ t ) / σ t , a n d ( μ t , σ t ) ∼ Q ϕ ( ⋅ ∣ τ 0 : t − 1 , s t , a t ) , R t = ∑ t T r t :u=(R_t-\mu_t)/\sigma_t,\mathrm{and}(\mu_t,\sigma_t)\sim Q_\phi(\cdot|\tau_{0:t-1},s_t,a_t), R_t=\sum_t^Tr_t :u=(Rtμt)/σt,and(μt,σt)Qϕ(τ0:t1,st,at),Rt=tTrt。需要指出,当 τ c > 0.5 \tau_c >0.5 τc>0.5时,批评家偏向于拟合最优轨迹。而 τ c < 0.5 \tau_c < 0.5 τc<0.5会使批评家偏向次优轨迹,

Asymmetric Critic Guidance

训练好价值函数后,通过最小化期望回归(IQL)迫使策略的期望回报与目标累计回报匹配:
L 2 τ p ( u ) = ∣ τ p − I ( u < 0 ) ∣ u 2 , \mathcal{L}_2^{\tau_p}(u)=|\tau_p-\mathbb{I}(u<0)|u^2, L2τp(u)=τpI(u<0)u2,
其中 u = ( R t − μ t ) / σ t   a n d   ( μ t , σ t ) ∼ Q ϕ ( ⋅ ∣ τ 0 : t − 1 , s t , a ^ t ) . u=(R_{t}-\mu_{t})/\sigma_{t}\mathrm{~and~}(\mu_{t},\sigma_{t})\sim Q_{\phi}(\cdot|\tau_{0:t-1},s_{t},\hat{a}_{t}). u=(Rtμt)/σt and (μt,σt)Qϕ(τ0:t1,st,a^t). a ^ \hat{a} a^是从策略 π θ ( ⋅ ∣ τ 0 : t − 1 , s t , R t ) \pi_\theta(\cdot|\tau_{0:t-1},s_t,R_t) πθ(τ0:t1,st,Rt)中采样。当 τ p \tau_p τp = 0.5 时,它等价于均值回归,它估计随机变量的平均值。通过调整 τ p \tau_p τp,在均值回归中引入了不对称性。它引导策略选择预期回报与目标回报接近的的乐观动作。

为了防止OOD数据价值高估问题,额外引入MSE的损失函数限制策略分布。因此,策略优化的最终损失函数表示为
L π ( θ ; α ) = L 2 ( a t , a ^ t ) + α ⋅ L 2 τ p ( R t − μ t σ t ) , \mathcal{L}_\pi(\theta;\alpha)=\mathcal{L}_2(a_t,\hat{a}_t)+\alpha\cdot\mathcal{L}_2^{\tau_p}(\frac{R_t-\mu_t}{\sigma_t}), Lπ(θ;α)=L2(at,a^t)+αL2τp(σtRtμt),

伪代码

在这里插入图片描述

results

在这里插入图片描述
在这里插入图片描述

### 对比能量预测在离线强化学习中的应用 对比能量预测(Contrastive Energy Prediction, CEP)是一种用于改进离线强化学习中策略优化的技术。它通过引入一种新的能量函数来指导扩散采样过程,从而提高样本效率和策略性能[^1]。 #### 能量引导扩散采样的核心概念 在离线强化学习中,数据集通常是固定的,无法通过与环境交互获取新数据。因此,如何高效利用已有数据成为关键挑战之一。CEP 方法的核心在于设计了一种基于对比学习的能量模型,该模型能够评估状态-动作对的质量并生成高质量的动作分布。 具体而言,精确能量引导扩散采样(Exact Energy-Guided Diffusion Sampling)旨在通过对动作空间进行连续调整,使得最终采样到的动作更接近最优解。这一过程依赖于一个精心设计的能量函数,其作用类似于传统强化学习中的奖励信号,但更加灵活且适用于静态数据集场景。 以下是实现此方法的一个简化伪代码示例: ```python def contrastive_energy_prediction(state, action_candidates): # 计算每个候选动作的能量值 energies = compute_energies(state, action_candidates) # 使用对比损失训练能量模型 loss = contrastive_loss(energies, positive_action_index) optimize(loss) return energies def exact_energy_guided_diffusion_sampling(state, initial_distribution): current_sample = initial_distribution for t in range(diffusion_steps): noise_level = schedule_noise(t) # 更新当前样本以降低能量 gradient = estimate_gradient(current_sample, state, noise_level) current_sample -= step_size * gradient return current_sample ``` 上述代码展示了两个主要部分:一是 `contrastive_energy_prediction` 函数负责计算给定状态下不同动作的能量;二是 `exact_energy_guided_diffusion_sampling` 实现了一个逐步减少噪声的过程,在每一步都尝试使样本向低能量区域移动。 #### 技术优势 相比传统的离线强化学习算法,CEP 和精确能量引导扩散采样具有以下几个显著优点: - **更高的样本利用率**:由于采用了精细调优的扩散机制,即使面对有限的数据也能有效提取有用信息。 - **更强泛化能力**:通过构建通用型能量函数而非特定参数化的策略网络,可以更好地适应未见过的状态输入。 - **易于扩展至复杂环境**:这种方法天然支持高维连续控制任务,并且理论上可推广到多种不同的领域问题上。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值