
强化学习
文章平均质量分 89
介绍强化学习基础概念及各类算法
DeepBrainWH
西工大计算机在读硕士一枚, 研究方向机器人智能决策,对图像处理,GAN, 情感分析较为感兴趣~
展开
-
手撕强化学习: Policy Gradient算法实现
Policy Gradient算法pytorch实现策略梯度是典型的on-policy的学习方式, 通过智能体与环境的交互实现自主学习. 其流程大致如下图所示.#mermaid-svg-0QTCGCECBnYroheS .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-0QTCGCECBnYroheS .lab原创 2021-04-20 16:43:40 · 632 阅读 · 0 评论 -
2. 强化学习篇:Deep Successor Representation(DSR) (完善中...)
DSR学习笔记及试验主要参考文献: [1] Gershman, Samuel J. "The successor representation: its computational logic and neural substrates."Journal of Neuroscience38.33 (2018): 7193-7200. [2]Kulkarni, Tejas D., et al. "Deep successor reinforcement learning."arX...原创 2020-11-28 22:11:05 · 1331 阅读 · 0 评论 -
1. 强化学习篇: Dyna-Q
像之前我们讨论的大量强化学习方法(DQN, Double DQN, Priorized DQN, Policy Gradient, PPO等等)都是基于model-free的,这也是RL学习的主要优势之一,因为大部分情况下agent所处的环境会非常复杂,很难获得一个model。但是如果我们想学习一个environment模型,或者说是我们已经有一个environment模型,该如何利用这个environment来加快阿agent学习进程?这篇文章就一起探讨下学习处RL的environment模型。文章主要从原创 2020-11-26 23:16:27 · 7252 阅读 · 0 评论