- 博客(4)
- 收藏
- 关注
原创 What different between online algorithm and offline algorithm
An online algorithm processes the input only piece by piece and doesn't know about the actual input size at the beginning of the algorithm. (So MDP?) An offline algorithm on the other hand works o...
2018-11-05 12:43:15
379
原创 强化学习导论笔记:多臂赌博机问题(初稿)
前言:接触强化学习最开始是参看的Sutton的本系列是参照Sutton的reinforcement learning an introduction这本书,刚开始读的时候感觉这本书晦涩难懂,非常不好理解。因此就找了几本中文的强化学习相关的书籍,阅读之后发现这些教材里很多东西都没讲清楚。折腾了一圈,最后还是决定仔细研读Sutton的这本教材。为了检验自己对于强化学习知识点的掌握情况,我就写了这个...
2018-07-04 22:19:35
841
原创 Q-learning简化过程
Q learning里的核心思想是如下公式:其中,第一个Q(S, A)是更新后的值,第二个Q(S, A)是Q表中值,a是指学习效率,r是奖励值。\gamma是折扣因子。第三个Q是指要选取Q表中的最大值。最后一个表示Q表中值,与第二个Q一样。现在通过书中的伪代码来展示Q-learning的过程:1. 初始化Q-Table:Q-table|S|*|A|的矩阵。其中,|S|代表了所...
2018-05-08 14:44:27
3370
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人