ICLR2025 Poster
大多数 RL 微调方法都需要在离线数据上进行持续训练,以保证稳定性和性能。然而,这种做法并不可取,因为对于大型数据集来说,在各种离线数据上进行训练既缓慢又昂贵,而且由于离线数据的限制或悲观情绪,原则上也会限制性能的提高。在本文中,我们将证明,只要使用设计得当的在线 RL 方法对离线 RL 初始化进行微调,就没有必要保留离线数据。为了建立这种方法,我们首先分析了保留离线数据在在线微调中的作用。我们发现,在离线数据上继续进行训练,主要是为了防止在微调开始时,由于离线数据和在线滚动数据之间的分布不匹配而导致值函数突然发散。这种偏离通常会导致离线预训练的优势被取消和遗忘。
本文方法,即暖启动 RL (WSRL),利用一个非常简单的想法减轻了预训练初始化的灾难性遗忘。将离线阶段训练的策略(冻结)与环境进行少量的交互(Steps=5000)然后通过较高UTD=4以及集成价值网络N=10对策略以及价值函数进行训练。