EFFICIENT ONLINE REINFORCEMENT LEARNING FINE-TUNING NEED NOT RETAIN OFFLINE DATA

在线强化学习微调无需保留离线数据

ICLR2025 Poster
大多数 RL 微调方法都需要在离线数据上进行持续训练,以保证稳定性和性能。然而,这种做法并不可取,因为对于大型数据集来说,在各种离线数据上进行训练既缓慢又昂贵,而且由于离线数据的限制或悲观情绪,原则上也会限制性能的提高。在本文中,我们将证明,只要使用设计得当的在线 RL 方法对离线 RL 初始化进行微调,就没有必要保留离线数据。为了建立这种方法,我们首先分析了保留离线数据在在线微调中的作用。我们发现,在离线数据上继续进行训练,主要是为了防止在微调开始时,由于离线数据和在线滚动数据之间的分布不匹配而导致值函数突然发散。这种偏离通常会导致离线预训练的优势被取消和遗忘。

本文方法,即暖启动 RL (WSRL),利用一个非常简单的想法减轻了预训练初始化的灾难性遗忘。将离线阶段训练的策略(冻结)与环境进行少量的交互(Steps=5000)然后通过较高UTD=4以及集成价值网络N=10对策略以及价值函数进行训练。

关于《Deep Reinforcement Learning Hands-On》一书的PDF资源,可以通过以下链接进行下载: - **PDF 链接**:https://pan.baidu.com/s/1CzplQERRjwgi0b9pQTebFw - **密码**:u3v5 该书籍涵盖了深度强化学习的基础知识以及高级主题,包括连续动作空间、信任域方法、黑盒优化、探索策略、人类反馈强化学习(RLHF)、AlphaGo Zero 和 MuZero 等前沿技术 [^1]。 此外,书中提供了丰富的代码示例,所有代码均基于 TensorFlow 实现,并且依赖库已经更新至最新版本或被更优方案替代,例如使用 Farama Foundation Gymnasium 替代了已停止维护的 OpenAI Gym [^3]。 ### 相关代码资源 你可以通过以下方式获取相关代码: - **代码 链接**:https://pan.baidu.com/s/1rrmuZTPML-ZLJZlGWhUVdA - **密码**:qzf8 代码仓库中包含了多个章节的实现,例如 DQN、DDPG、PPO 等主流算法的实战项目,适合动手实践和深入理解强化学习的实际应用 。 --- ### 示例代码片段(DQN) ```python import torch import torch.nn as nn import torch.optim as optim import gym import numpy as np class DQN(nn.Module): def __init__(self, input_dim, output_dim): super(DQN, self).__init__() self.net = nn.Sequential( nn.Linear(input_dim, 128), nn.ReLU(), nn.Linear(128, 128), nn.ReLU(), nn.Linear(128, output_dim) ) def forward(self, x): return self.net(x) env = gym.make('CartPole-v1') model = DQN(env.observation_space.shape[0], env.action_space.n) optimizer = optim.Adam(model.parameters(), lr=1e-3) loss_fn = nn.MSELoss() # 简单训练循环示意 for episode in range(1000): state = env.reset() done = False while not done: state_tensor = torch.FloatTensor(state) q_values = model(state_tensor) action = np.argmax(q_values.detach().numpy()) next_state, reward, done, _ = env.step(action) # 此处省略目标网络和经验回放机制,完整实现请参考配套代码 optimizer.zero_grad() loss = loss_fn(q_values[action], torch.tensor(reward)) loss.backward() optimizer.step() state = next_state ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值