
强化学习
MCMAXMM
Python,深度学习,机器学习,推荐系统,分布式系统,golang
展开
-
David Silver的强化学习视频的相关ppt
下面是David Silver的强化学习视频的相关ppt的下载网址:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files上面的网址可能下载有点慢,我再发一个我下载好的百度云网址:链接:https://pan.baidu.com/s/1HBiwCKLHH8zMGPv4dfHjxg提取码:x6he...原创 2019-04-11 17:40:37 · 1407 阅读 · 4 评论 -
TD(λ)--Eligibility Traces
Eligibility traces在backward view中扮演者重要的角色。它的由来主要来自于解释分数(奖惩)的由来,如图,这种电击的原因有两种启发式的解释,一种是频率派,认为电击来自于出现频率最多的情况,即铃声。另外一种是近因派,认为电击是来自于灯泡,而eligibility tarces采用衰减因子的方式,比较好的结合了这两种启发式的方法,这是Eligibility tra...原创 2019-06-19 10:47:58 · 1094 阅读 · 0 评论