1.DQN的学习
这里有思路和流程:http://www.cnblogs.com/cjnmy36723/p/7018860.html
这里有DQN的伪代码,而且有俩个版本,区别就是targetQ的更新方式:https://blog.youkuaiyun.com/u013236946/article/details/72871858
这是个实际的例子:DQN玩Flappy Bird,结合实例看代码,理解起来会更容易。
https://www.jianshu.com/p/e63d8cd3b610
https://www.jianshu.com/p/0a04426ee3ad
贴一个我稍作修改的流程:
2.本人是学了DQN后再看的Policy Gradient,先跟着一些教程看,还说要先去MDP的动态规划、蒙特卡罗、TD巴拉巴拉,之后看了发现,感觉并没有什么关系也没什么用……(如果你想了解的话,贴个链接: