ReplayBuffer: Model-augmented Prioritized Experience Replay

最新推荐文章于 2025-09-01 17:46:32 发布

原创

最新推荐文章于 2025-09-01 17:46:32 发布 · 1.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

本文介绍了一种新的在RL中结合奖励模型和状态转移模型的采样频率计算方法MaPER，通过优化模型误差（包括Q函数、奖励模型和状态转移模型）来提高模型-free和model-based方法的样本效率。作者提出了一种权重分配策略，以调整每个采样数据在联合损失函数中的重要性。

ICLR 2022 Poster
paper
一篇关于RelayBuffer中sample ratio的文章，可以结合到model-free以及model-based的方法中提升算法的sample efficiency。

Intro

以往基于优先回访机制的Buffer均是基于Q函数的TD-erro展开，而这所能捕获到的样本信息还是较少。作者观察到奖励模型、状态转移模型以及Q函数都是在同一个Domian中进行特征表达(输入均为 $S, A$ )，因此在TD-error的基准上，加上奖励模型以及状态转移模型的model-erro，构造一种新的采样频率计算方法MaPER。
在这里插入图片描述

Method

对于从Buffer中sample 出的N个数据 $\mathcal{B}_i=\begin{pmatrix}s_{\kappa(i)},a_{\kappa(i)},r_{\kappa(i)},s_{\kappa(i)+1}\end{pmatrix}$ 首先TD-erro采用Q bellman迭代误差, 其中使用奖励模型代替环境给出的奖励:
$L_{\mathcal{Q}_\theta}=\mathbb{E}_{(s_t,a_t,s_{t+1})\sim\mathcal{B}}\left[\|\delta_t\mathcal{Q}_\theta^{\pi_\Theta}(s_t,a_t,s_{t+1})\|_{\mathrm{MSE}}\right],\\\text{}\\\delta\mathcal{Q}_\theta^{\pi_\Theta}(s_t,a_t,s_{t+1})=\mathcal{Q}_\theta(s_t,a_t)-\left(\mathcal{R}_\theta(s_t,a_t)+\gamma\mathbb{E}_{a^{\prime}\sim\pi_\Theta(\cdot,s_{t+1})}\left[\mathcal{Q}_\theta(s_{t+1},a^{\prime})\right]\right).$