O2O: Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

最新推荐文章于 2025-11-30 18:24:05 发布

原创

最新推荐文章于 2025-11-30 18:24:05 发布 · 1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

文章探讨了离线阶段过度保守的价值估计如何影响在线策略微调，提出Cal-QL方法，通过在离线阶段修正Q函数，确保在线阶段的稳定性能，避免性能初期下降。它利用行为策略作为下界，对Q函数进行优化。

NIPS 2023
paper
code

Intro

文章通过CQL分析指出离线阶段保守的价值估计会导致在线微调初始阶段出现performance drop，进而导致在现阶段需要浪费大量样本重新矫正Q函数。本文提出的Cal-QL便是通过离线阶段矫正Q函数从而避免在线初始阶段的drop。
在这里插入图片描述

Method

出现这种drop是离线阶段保守的价值估计，造成策略在线时，面对全新的数据出现错误的价值估计，而这种错误的估计结果很可能欺骗策略学习
在这里插入图片描述
直观的方法便是在离线阶段，放松Q的估计。因此，基于CQL的对Q优化目标，Cal-QL采用行为策略作为参考策略，并当作价值估计的下界值
$J_{Q}(\theta):=\alpha\left(\underbrace{\mathbf{E}_{s\sim D,a\sim \pi}\left[\max\left(Q_{\theta}(s,a),Q^{\mu}(s,a)\right)\right]-\mathbf{E}_{s,a\sim D}\left[Q_{\theta}(s,a)\right]}_{\text{Calibrated conservative regularizer }\mathcal{R}(\theta)}\right)+\frac{1}{2}\mathbb{E}_{s,a,s^{\prime}\sim D}\left[\left(Q_{\theta}(s,a)-B^{\pi}\bar{Q}(s,a)\right)^{2}\right]$