Intro
大多数现有的off-policy RL 算法都无法最大限度地利用重放缓冲区中的信息,从而限制了采样效率和策略性能。在这项工作中发现根据共享的在线回放缓冲区同时训练offline RL 策略有时会优于原始的在线学习策略,但这种性能增益的发生仍不确定。这就是本文提出的OBAC,即利用新出现的性能优越的离线最优策略来改进在线策略学习。

Method
策略提升
- 对于目标策略 π \pi π依旧按照利用bellman期望算子,最小化均方bellman误差得到状态动作价值函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)
arg min Q ϕ π E ( s , a , r , s ′ ) ∼ D [ 1 2 ( Q ϕ π ( s , a ) − T π Q ϕ π ( s , a ) ) 2 ] \arg\min_{Q_\phi^\pi}\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\left[\frac{1}{2}\left(Q_\phi^\pi(s,a)-\mathcal{T}^\pi Q_\phi^\pi(s,a)\right)^2\right] argQ

最低0.47元/天 解锁文章






