强化学习
文章平均质量分 54
研究僧m0_37600149
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【强化学习实践】格子世界(DP)
最近在看David Sliver强化学习的视频,只看视频不打代码会很无聊的:) 算法描述见上面的slides截图,下面直接贴代码 import numpy as np world_h = 5 world_w = 6 length = world_h * world_w gamma = 1 state = [i for i in range(length)] action...原创 2017-11-08 11:28:43 · 2333 阅读 · 0 评论 -
AlphaGo原理浅析
AlphaGo论文: AlphaGo:《Mastering the game of Go with deep neural networks and tree search》原创 2017-11-15 15:59:06 · 1074 阅读 · 0 评论 -
AlphaGo Zero原理浅析
AlphaGo Zero 论文:《Mastering the game of Go without human knowledge》 AlphaGo与AlphaGo Zero主要有以下几点不同: - AlphaGo中用了3个policy network,AlphaGo Zero只用了一个reinforcement learning network - AlphaGo Zero将po原创 2017-11-18 18:43:56 · 5257 阅读 · 3 评论 -
各种DQN
Q-learning DQN论文:Human-level control through deep reinforcement learning DQN其实就是将深度学习与Q-learning结合起来了,建立了卷积神经网络来估计Q值。 建立了Q network,Q target network(Q̂ \hat Q)两个网络,对每一个episode,t时刻时,对于状态sts_t原创 2017-11-28 14:13:10 · 3628 阅读 · 0 评论 -
ubuntu anaconda安装roboschool
https://www.jianshu.com/p/b9f14b8b1babhttps://github.com/openai/roboschool/issues/122原创 2018-05-22 20:38:11 · 975 阅读 · 0 评论
分享