强化学习
普通网友
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Q-learning和Sarsa的区别
因此对于SARSA来说1.在状态s’时,就知道了要采取哪个a’,并真的采取了这个动作。2.动作a的选取遵循e-greedy策略,目标Q值的计算也是根据(e-greedy)策略得到的动作a’计算得来,因此为on-policy学习。(选择下个动作的存在探索的可能性)而对于Q-learning来说1, 只会选择使得下个状态Q值最大的下个动作。2. Q learning 机器人 永远都会选择...原创 2020-04-12 14:32:33 · 372 阅读 · 0 评论 -
DQN核心流程图
原创 2020-03-19 17:44:07 · 1949 阅读 · 1 评论 -
状态值函数和动作值函数
转载自:http://blog.youkuaiyun.com/qq_40027052/a…转载 2020-02-14 15:43:01 · 1800 阅读 · 0 评论
分享