O2O: Online Pre-Training for Offline-to-Online Reinforcement Learning

ICML 2025 poster
离线到在线强化学习 (RL) 旨在通过离线预训练智能体,然后通过在线交互对其进行微调,从而整合离线和在线 RL 的互补优势。然而,最近的研究表明,由于分布偏移导致的不准确的价值估计,离线预训练的智能体在在线微调期间通常表现不佳,在某些情况下,随机初始化被证明更有效。在这项工作中提出了一种新颖的方法,即用于离线到在线 RL 的在线预训练 (OPT),它被明确设计用于解决离线预训练智能体中不准确的价值估计问题。 OPT 引入了一个新的学习阶段,即在线预训练,它允许训练一个新的价值函数,该函数专门为有效的在线微调量身定制。在 TD3 和 SPOT 上实施 OPT 表明,在包括 MuJoCo、Antmaze 和 Adroit 在内的各种 D4RL 环境中,性能平均提高了 30%

在这里插入图片描述
对比传统O2O的方法,中间引入了一个针对在线数据的Q学习,该过程中保留离线阶段Q与策略不参与更新,而是在第三阶段共同被更新。第二阶段的Q更新采用类似于OEMA的元更新
在这里插入图片描述
第三阶段的策略更新需要i同时用到这两个Q函数,因此采用一种加权模式
在这里插入图片描述
而各自的Q函数更新则回到原始均方bellman误差
在这里插入图片描述
伪代码:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值