Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

ICML 2024
paper
code

Intro

大多数现有的off-policy RL 算法都无法最大限度地利用重放缓冲区中的信息,从而限制了采样效率和策略性能。在这项工作中发现根据共享的在线回放缓冲区同时训练offline RL 策略有时会优于原始的在线学习策略,但这种性能增益的发生仍不确定。这就是本文提出的OBAC,即利用新出现的性能优越的离线最优策略来改进在线策略学习。
在这里插入图片描述

Method

策略提升

  1. 对于目标策略 π \pi π依旧按照利用bellman期望算子,最小化均方bellman误差得到状态动作价值函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)
    arg ⁡ min ⁡ Q ϕ π E ( s , a , r , s ′ ) ∼ D [ 1 2 ( Q ϕ π ( s , a ) − T π Q ϕ π ( s , a ) ) 2 ] \arg\min_{Q_\phi^\pi}\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\left[\frac{1}{2}\left(Q_\phi^\pi(s,a)-\mathcal{T}^\pi Q_\phi^\pi(s,a)\right)^2\right] argQ
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值