- 博客(4)
- 收藏
- 关注
原创 离线强化学习系列3(算法篇): AWAC算法详解与实现
[更新记录]文章目录1、问题及背景2、困难与挑战2.1 效率2.1 Q值过估计问题3、AWAC3.1 公式3.2 伪代码4、实验结果参考文献论文信息:AWAC: Accelerating Online Reinforcement Learning with Offline Datasets[Code]本文由UC Berkeley的Sergey Levine团队(一作是Ashvin Nair和Abhishek Gupta)于2020年提出,投稿到ICLR2021上,但最终被拒稿。文章的思路和BE..
2022-04-24 22:00:47
1489
原创 离线强化学习系列3(算法篇): AWR(Advantage-Weighted Regression)算法详解与实现
文章目录1、预备知识1.1 累计奖励1.2 [RWR](https://is.mpg.de/fileadmin/user_upload/files/publications/ICML2007-Peters_4493[0].pdf)2、AWR2.1 策略评估2.2 伪代码2.3 off policy2.3.1 样本分布2.3.2 策略提升2.3.3 价值函数3、实验参考文献论文信息:Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine: “Advan.
2022-04-17 22:39:42
881
原创 离线强化学习系列3(算法篇): 值函数约束-CQL算法详解与实现
[更新记录]论文信息:Conservative Q-Learning for Offline Reinforcement Learning][Code]本文由UC Berkeley的Sergey Levine团队(一作是Aviral Kumar)于2020年提出,并发表在NIPS2020会议上。论文的主要思想是在QQQ值基础上增加一个regularizer,学习一个保守的Q函数,作者从理论上证明了CQL可以产生一个当前策略的真实值下界,并且是可以进行策略评估和策略提升的过程。从代码的角度上来说,本文.
2022-04-10 18:46:56
1360
原创 离线强化学习系列3(算法篇)策略约束-BCQ详解与实现
【更新日志】论文信息:Off-Policy Deep Reinforcement Learning without Exploration, [Github]本文主要介绍的是连续空间状态下的策略约束的BCQ算法, 作者首先就offline RL中容易出现extrapolation error现象进行了解释,然后用数学证明了在某些条件下这种误差是可以消除的,最后引入了BCQ算法,通过batch constrain的限制来避免这样的误差,实验证明BCQ算法的效果很好。
2022-04-02 18:03:31
2485
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人