
增强学习
OldBibi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
增强学习 - MDPs - Dynamic Programming (一)
MDP原创 2019-01-04 01:25:47 · 453 阅读 · 2 评论 -
增强学习 - MDPs - Dynamic Programming (二)
接着前面的 : https://blog.youkuaiyun.com/weixin_43909872/article/details/85728246Policy Iteration前面用动态规划的方式迭代了215次得到了比较好的policy。第215次:[ 0. -13.99989315 -19.99984167 -21.99982282 -13.99989315-17.99986052 -1...原创 2019-01-05 01:04:34 · 308 阅读 · 0 评论 -
增强学习 - MDPs - 蒙特卡洛方法 + 21点游戏
什么是蒙特卡洛方法蒙特卡罗方法又叫做统计模拟方法,它使用随机数(或伪随机数)来解决计算问题。 简单来说就是基于概率,比如下图,基于一个不规则的曲线我们很难去求积分,那么我们可以均匀的往这个方框里去撒豆子,撒上10000个豆子以后我们数下面的豆子就可以知道阴影部分的面积了。为什么用蒙特卡洛方法前面介绍的动态规划方法(https://blog.youkuaiyun.com/weixin_43909...原创 2019-01-05 23:14:12 · 2507 阅读 · 0 评论 -
增强学习 - MDPs - TD Learning(Sarsa & Q-Learning)
TD Learning - Temporal Difference Learning前面的蒙特卡洛方法 :https://blog.youkuaiyun.com/weixin_43909872/article/details/85873569蒙特卡洛方法需要完整的episode去做分析计算,但很多情况下我们无法得到完整的episode链,这时候可以使用TD learning方法,在线时序差分学习。具...原创 2019-01-06 14:42:38 · 337 阅读 · 0 评论