3rd Offline Reinforcement Learning Workshop at Neural Information Processing Systems, 2022.
paper
Intro
通过对TD3-BC 中的BC正则化项系数进行调整,使得算法在实现O2O时有更好的表现。
Method
Offline
对于离线阶段的TD3+BC,策略优化目标为:
π = arg max π E ( s , a ) ∼ D [ Q ( s , π ( s ) ) ⏟ R L − α ( π ( s ) − a ) 2 ⏟ B C ] . \pi=\arg\max_{\pi}\mathbb{E}_{(s,a)\sim D}\Big[\underbrace{Q(s,\pi(s))}_{RL}-\alpha\underbrace{(\pi(s)-a)^2}_{BC}\Big]. π=argπmaxE(s,a)∼D[RL
Q(s,π(s))−αBC
改进的TD3-BC算法:离线到在线的稳定性能优化

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



