Intro
文章通过CQL分析指出离线阶段保守的价值估计会导致在线微调初始阶段出现performance drop,进而导致在现阶段需要浪费大量样本重新矫正Q函数。本文提出的Cal-QL便是通过离线阶段矫正Q函数从而避免在线初始阶段的drop。

Method
出现这种drop是离线阶段保守的价值估计,造成策略在线时,面对全新的数据出现错误的价值估计,而这种错误的估计结果很可能欺骗策略学习

直观的方法便是在离线阶段,放松Q的估计。因此,基于CQL的对Q优化目标,Cal-QL采用行为策略作为参考策略,并当作价值估计的下界值
J Q ( θ ) : = α ( E s ∼ D , a ∼ π [ max ( Q θ ( s , a ) , Q μ ( s , a ) ) ] − E s , a ∼ D [ Q θ ( s , a ) ] ⏟ Calibrated conservative regularizer R ( θ ) ) + 1 2 E s , a , s ′ ∼ D [ ( Q θ ( s , a ) − B π Q ˉ ( s , a ) ) 2 ] J_{Q}(\theta):=\alpha\left(\underbrace{\mathbf{E}_{s\sim D,a\sim \pi}\left[\max\left(Q_{\theta}(s,a),Q^{\mu}(s,a)\right)\right]-\mathbf{E}_{s,a\sim D}\left[Q_{\theta}(s,a)\right]}_{\text{Calibrated conservative regularizer }\mathcal{R}(\theta)}\right)+\frac{1}{2}\mathbb{E}_{s,a,s^{\prime}\sim D}\left[\left(Q_{\theta}(s,a)-B^{\pi}\bar{Q}(s,a)\right)^{2}\right] JQ(θ):=α

文章探讨了离线阶段过度保守的价值估计如何影响在线策略微调,提出Cal-QL方法,通过在离线阶段修正Q函数,确保在线阶段的稳定性能,避免性能初期下降。它利用行为策略作为下界,对Q函数进行优化。
最低0.47元/天 解锁文章
747

被折叠的 条评论
为什么被折叠?



