
RL 基础算法
本专栏是我的RL入门基础学习内容,里面包含我总结的一些基础算法的流程,如果有涉及到版权问题,请联系我修改删除,谢谢~
晴晴_Amanda
这个作者很懒,什么都没留下…
展开
-
RL策略梯度方法之(十八): Importance Weighted Actor-Learner Architecture (IMPALA)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-07 23:52:45 · 1336 阅读 · 0 评论 -
RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-07 23:49:38 · 1161 阅读 · 0 评论 -
RL策略梯度方法之(十六):Twin Delayed Deep Deterministic(TD3)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-07 23:15:07 · 1616 阅读 · 0 评论 -
RL策略梯度方法之(十五):SAC with Automatically Adjusted Temperature
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-07 18:43:10 · 715 阅读 · 0 评论 -
RL策略梯度方法之(十四):Soft Actor-Critic (SAC)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-07 18:11:42 · 5865 阅读 · 0 评论 -
RL策略梯度方法之(十三): actor-critic using Kronecker-factored trust region(ACKTR)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-07 00:57:53 · 772 阅读 · 0 评论 -
RL策略梯度方法之(十二): actor-critic with experience replay(ACER)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-07 00:51:13 · 1819 阅读 · 0 评论 -
RL策略梯度方法之(十一):proximal policy optimization (PPO)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-06 23:12:24 · 2817 阅读 · 4 评论 -
RL策略梯度方法之(十): Trust region policy optimization (TRPO)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-06 13:58:19 · 592 阅读 · 0 评论 -
RL策略梯度方法之(九):Multi-agent DDPG (MADDPG)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-05 23:21:31 · 3683 阅读 · 1 评论 -
RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-05 23:06:54 · 3001 阅读 · 2 评论 -
RL策略梯度方法之(七): Deep Deterministic Policy Gradient(DDPG)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-05 22:24:08 · 2432 阅读 · 0 评论 -
RL策略梯度方法之(六): Deterministic policy gradient(DPG)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现原创 2020-10-05 17:09:22 · 1269 阅读 · 0 评论 -
RL策略梯度方法之(五): Advantage Actor-Critic(A2C)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析原理解析原创 2020-10-05 00:38:41 · 4305 阅读 · 0 评论 -
RL策略梯度方法之(四): Asynchronous Advantage Actor-Critic(A3C)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现A3C\color{red}A3CA3C :[ paper | code ]原理解析在A3C中,critic 学习值函数,同时多个 actor 并行训练,并不时地与全局参数同步。因此,A3C可以很好地用于并行训练。服务器的每个核都是一个线程,也就是一个平行世界原创 2020-10-04 15:10:32 · 896 阅读 · 0 评论 -
RL策略梯度方法之(三): Off-Policy Policy Gradient算法
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现算法流程代码实现原理解析算法实现算法流程代码实现原创 2020-10-04 14:06:36 · 1776 阅读 · 1 评论 -
RL策略梯度方法之(二): Actor-Critic算法
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析策略梯度的直观解释Actor-Critic框架引出GAE算法实现算法流程代码实现原理解析AC算法框架被广泛应用于实际强化学习算法中,该框架集成了值函数估计算法和策略搜索算法,是解决实际问题时最常考虑的框架。AC算法起源于策略梯度算法,因此在介绍AC算法时,我们先从策略梯度入手。(其实上篇已经介绍原创 2020-09-22 22:20:17 · 2534 阅读 · 0 评论 -
RL策略梯度方法之(一): REINFORCE算法
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析基于值 的RL的缺陷策略梯度蒙特卡罗策略梯度REINFORCE算法REINFORCE简单的扩展:REINFORCE with baseline算法实现总体流程代码实现原理解析基于值 的RL的缺陷基于价值的深度强化学习方法有它自身的缺点,主要有以下三点:基于价值的强化学习无法很好的处理连续空间原创 2020-09-22 14:58:55 · 17976 阅读 · 1 评论