Offline RL ：Critic-Guided Decision Transformer for Offline Reinforcement Learning

最新推荐文章于 2025-07-02 20:02:26 发布

原创最新推荐文章于 2025-07-02 20:02:26 发布 · 730 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习

强化学习同时被 3 个专栏收录

98 篇文章

订阅专栏

离线强化学习

40 篇文章

订阅专栏

Transformer

9 篇文章

订阅专栏

AAAI 2023
paper
利用价值函数解决序列模型拼接能力的离线算法

Intro

文章提出了一种新的离线强化学习方法，名为“Critic-Guided Decision Transformer”（CGDT）。该方法基于“Return-Conditioned Supervised Learning”（RCSL）范式，旨在解决现有RCSL方法在处理随机环境和需要“stitching”能力的场景中的局限性。CGDT 结合了基于价值的方法来预测长期回报，并利用决策变换器（Decision Transformer）对轨迹进行建模。通过引入一个学习到的价值函数（即“critic”），CGDT 确保了指定目标回报与动作的预期回报之间的直接对齐。这种方法弥合了RCSL的确定性本质与基于价值的方法的概率特征之间的差距。在随机环境和D4RL基准数据集上的实证评估表明，CGDT 优于传统的RCSL方法。这些结果突出了CGDT 在离线RL领域的潜力，并扩展了RCSL在各种RL任务中的适用性。

Method

在这里插入图片描述

Asymmetric Critic Training

采用高斯部分对价值函数Q分布进行建模：
$\mathcal{L}_Q(\phi)=-|\tau_c-\mathbb{I}(u>0)|\log Q_\phi(R_t|\tau_{0:t-1},s_t,a_t),(2)$
其中 $:u=(R_t-\mu_t)/\sigma_t,\mathrm{and}(\mu_t,\sigma_t)\sim Q_\phi(\cdot|\tau_{0:t-1},s_t,a_t), R_t=\sum_t^Tr_t$ 。需要指出，当 $\tau_c >0.5$ 时，批评家偏向于拟合最优轨迹。而 $\tau_c < 0.5$ 会使批评家偏向次优轨迹，

Asymmetric Critic Guidance

训练好价值函数后，通过最小化期望回归(IQL)迫使策略的期望回报与目标累计回报匹配：
$\mathcal{L}_2^{\tau_p}(u)=|\tau_p-\mathbb{I}(u<0)|u^2,$
其中 $u=(R_{t}-\mu_{t})/\sigma_{t}\mathrm{~and~}(\mu_{t},\sigma_{t})\sim Q_{\phi}(\cdot|\tau_{0:t-1},s_{t},\hat{a}_{t}).$ 。 $\hat{a}$ 是从策略 $\pi_\theta(\cdot|\tau_{0:t-1},s_t,R_t)$ 中采样。当 $\tau_p$ = 0.5 时，它等价于均值回归，它估计随机变量的平均值。通过调整 $\tau_p$ ，在均值回归中引入了不对称性。它引导策略选择预期回报与目标回报接近的的乐观动作。

为了防止OOD数据价值高估问题，额外引入MSE的损失函数限制策略分布。因此，策略优化的最终损失函数表示为
$\mathcal{L}_\pi(\theta;\alpha)=\mathcal{L}_2(a_t,\hat{a}_t)+\alpha\cdot\mathcal{L}_2^{\tau_p}(\frac{R_t-\mu_t}{\sigma_t}),$