
RL笔记
WangSampson
Go Deep, Learn More
展开
-
RL笔记_强化学习与监督学习的一些区别
强化学习与监督学习的一些区别原创 2016-10-13 09:56:34 · 2730 阅读 · 0 评论 -
RL笔记_Balance exploration and exploitation 几种简单方法
1,首先是pursuit方法,一直选择当前贪婪的action;2,柯西-贪婪方法:以一定概率探索,随机选择非当前最优的action;3,softmax :在以一定概率探索的基础上,根据当前的action_value estimates,利用Gibbs函数对剩余action做grade,对第二种方法随机选择非最优的一个改进;4,interval estimation:以上方法是在acti原创 2016-10-14 22:00:00 · 2858 阅读 · 0 评论 -
RL笔记_DP方法与蒙特卡洛方法的差异
DP方法中常见的如值迭代和策略迭代,可以统称为GPI,Generalized Policy Iteration,包括两个主要部分,evaluation 和 improvement。在此方法中我们需要知道状态转移的概率分布,相当于对环境有了一个先验知识,而蒙特卡洛方法只有样本,需要什么自己计算什么,也可以叫做model free的方法。原创 2016-10-19 21:33:19 · 843 阅读 · 0 评论