AAAI 2024
paper
Intro
O2O为通过在线微调改进次优离线预训练策略提供了一种有前途的解决方案。然而,一种有效的无约束微调方法往往由于分布偏移过大而遭受严重的策略崩溃。为了确保稳定性,现有方法保留离线约束并在微调期间使用额外的技术,这会损害效率。在这项工作中\引入了一种新的视角:在不施加约束的情况下消除策略崩溃。受益于无约束微调的效率,同时通过修改Critic以及Actor的 Update-To Data 比率来确保稳定性。
Method
文章首先基于IQL算法进行离线训练,在用IQL在线微调代表带约束O2O,另外采用SAC作为无约束微调方法。对比二者结果,如下图中第一行所示。

可以看出约束方法不容易出现初始performance drop但是约束的存在限制算法的探索能力(如图b中动作的分布),进而导致样本效率较低。而无约束的方法在初期出现drop,但是后期的广泛探索增加了他的样本效率。文章通过分析buffer中样本的Q分布(图c,图b)发现无约束方法存在价值函数高估的问题。这是由于在初期阶段对OOD数据的高估,而错误的价值估计导致策略的偏移。但是图a证明无约束的方法只是在初期存在drop,那么要解决的问题自然就是如何消除这种drop。
所提出的方法便是改进Critic以及Actor的UTD。既然价值函数估计不准,那就增加Critic的UTD。而为了避免错误的价值估计影响策略,则减少Actor的UTD。

最低0.47元/天 解锁文章
3897

被折叠的 条评论
为什么被折叠?



