EFFICIENT ONLINE REINFORCEMENT LEARNING FINE-TUNING NEED NOT RETAIN OFFLINE DATA

在线强化学习微调无需保留离线数据

最新推荐文章于 2025-08-30 23:33:16 发布

原创最新推荐文章于 2025-08-30 23:33:16 发布 · 321 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #算法 #机器学习 #深度学习

强化学习同时被 3 个专栏收录

101 篇文章

订阅专栏

23 篇文章

订阅专栏

5 篇文章

订阅专栏

ICLR2025 Poster
大多数 RL 微调方法都需要在离线数据上进行持续训练，以保证稳定性和性能。然而，这种做法并不可取，因为对于大型数据集来说，在各种离线数据上进行训练既缓慢又昂贵，而且由于离线数据的限制或悲观情绪，原则上也会限制性能的提高。在本文中，我们将证明，只要使用设计得当的在线 RL 方法对离线 RL 初始化进行微调，就没有必要保留离线数据。为了建立这种方法，我们首先分析了保留离线数据在在线微调中的作用。我们发现，在离线数据上继续进行训练，主要是为了防止在微调开始时，由于离线数据和在线滚动数据之间的分布不匹配而导致值函数突然发散。这种偏离通常会导致离线预训练的优势被取消和遗忘。

本文方法，即暖启动 RL (WSRL)，利用一个非常简单的想法减轻了预训练初始化的灾难性遗忘。将离线阶段训练的策略（冻结）与环境进行少量的交互（Steps=5000）然后通过较高UTD=4以及集成价值网络N=10对策略以及价值函数进行训练。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。