
强化学习
文章平均质量分 80
lancelot_vim
没啥好说的
展开
-
马尔可夫决策过程
马尔可夫决策过程马尔科夫决策过程马尔可夫决策过程是一个离散时间的随机过程,有六元组{S,A,D,P,r,J}\{S, A, D, P, r, J \}组成,六元组中: 1. SS有限维的环境状态空间 2. AA是有限维的动作空间,DD为初始状态的概率分布,如果初始状态的确定的,DD在该初始状态下的概率为1,当初始状态是以相等的概率从所有状态中选择时,DD可以忽略。 3. P(s,a,s′)∈[原创 2016-06-07 14:03:08 · 4797 阅读 · 0 评论 -
google deepMind DQN 源码解读(1)
google DQN 源码解读(1)首先train_agent.lua文件进入,执行第一行代码:if not dqn then require "initenv"end由于没有dqn这个变量,之后会跳转initenv.lua文件,对环境进行配置进入这个文件之后,瞬间可以得到一个table: dqn = {} 之后require一些文件,其中torch,nn,nngraph是torch自原创 2016-06-12 16:37:42 · 7635 阅读 · 1 评论