
强化学习
文章平均质量分 92
记录自己学习强化学习过程中的一些笔记~
小菜羊~
计算机科学与技术硕士在读
展开
-
Pytorch实现DDPG算法
本文主要介绍Pytorch复现一下DDPG。原创 2021-09-24 17:34:20 · 6479 阅读 · 3 评论 -
OfflineRL——BCQ算法
最近在看一些offline RL的内容,本文主要是介绍一个offline RL的经典算法——BCQ算法。原创 2021-08-22 10:19:49 · 3811 阅读 · 0 评论 -
强化学习入门8—深入理解DDPG
本文是强化学习入门系列的第八篇,前面我们讲Actor-Critic时提到了DDPG。DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法,它解决了Actor-Critic 神经网络每次参数更新前后都存在相关性,导致神经网络只能片面的看待问题这一缺点。同时也解决了DQN不能用于连续性动作的缺点。原创 2021-08-22 10:18:06 · 4100 阅读 · 0 评论 -
强化学习入门7—Actor-Critic
本文是强化学习入门系列的第七篇,介绍一种结合了策略梯度和时序差分的算法——Actor-Critic即演员评论家算法。原创 2021-08-22 10:17:54 · 916 阅读 · 0 评论 -
强化学习入门6—Policy Gradient策略梯度算法
本文是强化学习入门系列的第六篇,将介绍一种有别于前面Q-learning这些基于价值的算法——策略梯度。原创 2021-08-21 12:10:23 · 2649 阅读 · 0 评论 -
强化学习入门5—一文带你了解DQN
本文是强化学习入门系列的第五篇。我们前面介绍了Q-learning,今天介绍一个深度版的Q-learning。原创 2021-08-21 12:10:12 · 2965 阅读 · 0 评论 -
强化学习入门4—Q-learning和Sarsa
本文是强化学习入门系列的第4篇,主要介绍强化学习当中非常常见的两个时序差分算法:Q-learning和Sarsa。原创 2021-08-21 12:09:56 · 1280 阅读 · 1 评论 -
强化学习入门3—动态规划
本文为强化学习入门系列的第三篇,主要介绍如何通过动态规划来求解贝尔曼最优方程。原创 2021-08-21 12:09:45 · 300 阅读 · 0 评论 -
强化学习入门2—初识MDP
本文为强化学习入门系列的第二篇,主要介绍强化学习中非常重要的理论框架——MDP 马尔可夫决策过程原创 2021-08-21 12:08:33 · 3878 阅读 · 1 评论 -
强化学习入门1—多臂老虎机Multi-armed Bandits
本文为强化学习入门系列的第一篇,主要是对sutton大神的《强化学习》这本书的相关内容,做了一些笔记,简单介绍了bandits问题的解决思路。原创 2021-08-21 12:07:56 · 3260 阅读 · 0 评论