EFFICIENT ONLINE REINFORCEMENT LEARNING FINE-TUNING NEED NOT RETAIN OFFLINE DATA

ICLR2025 Poster
大多数 RL 微调方法都需要在离线数据上进行持续训练,以保证稳定性和性能。然而,这种做法并不可取,因为对于大型数据集来说,在各种离线数据上进行训练既缓慢又昂贵,而且由于离线数据的限制或悲观情绪,原则上也会限制性能的提高。在本文中,我们将证明,只要使用设计得当的在线 RL 方法对离线 RL 初始化进行微调,就没有必要保留离线数据。为了建立这种方法,我们首先分析了保留离线数据在在线微调中的作用。我们发现,在离线数据上继续进行训练,主要是为了防止在微调开始时,由于离线数据和在线滚动数据之间的分布不匹配而导致值函数突然发散。这种偏离通常会导致离线预训练的优势被取消和遗忘。

本文方法,即暖启动 RL (WSRL),利用一个非常简单的想法减轻了预训练初始化的灾难性遗忘。将离线阶段训练的策略(冻结)与环境进行少量的交互(Steps=5000)然后通过较高UTD=4以及集成价值网络N=10对策略以及价值函数进行训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值