
强化学习
Keepcloud
这个作者很懒,什么都没留下…
展开
-
西瓜书强化学习QLearning算法与网上版本比较
西瓜书上的QLearning算法与网上的版本比较: 不同点:西瓜书上的Q(x,a)就是Q表,π(x,a)就是贪婪算法选择动作的概率,这个值对应于ε。 西瓜书上的第六行的公式和另一版本的更新值公式的区别,网上版本是下一个状态的maxQ(x',a'), 因为是求最大值,所以不需要西瓜书上的第五行和第七行代码,直接查找下一个状态x'的最大值得Q(x',a'),而西瓜书上的不...原创 2018-07-16 19:35:18 · 1409 阅读 · 3 评论 -
Prioritized Experience Replay中的sumTree的实现,用sumTree来存储正样本,以便随机抽取
sumTree的定义可以参考这篇论文《Prioritized Experience Replay》,下面的详细代码注释链接,在注释中有叶子节点和树的总结点的关系:https://download.youkuaiyun.com/download/song91425/10568762 import numpy as npclass Tree(object): write = 0 ...原创 2018-07-27 20:11:08 · 5994 阅读 · 1 评论 -
机器学习和强化学习--note
1 FA(function approximate) 函数近似2 事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.3 SVD ...原创 2018-08-27 21:41:56 · 320 阅读 · 0 评论