
C++
文章平均质量分 76
cong_twodogs
这个作者很懒,什么都没留下…
展开
-
Sarsa算法与Q-learning在训练游戏时的思考
Sarsa算法与Q-learning思考Sarsa算法它与Q-learning相当的相似,不同点在于Q-learning在现实值代入的是s2状态下的最大值,而Sarsa是选择在s2上实实在在走的动作a,这个a可能是所有动作里的最大值,也可能不是。Sarsa算法我愿称之为说到做到型算法!如果思考比较两种算法选择最大值与否对算法的后续影响的话,Sarsa训练学习到的孩子,更容易偏向获得更高利益的动作,比方说他通过一直执行a2学习动作最后得到了高回报,那么下一次他学习时,就更偏向一直做a2学习动作,即使原创 2021-08-11 21:58:48 · 342 阅读 · 0 评论 -
强化学习Q-learnin学习笔记
强化学习Q-learnin学习笔记前言本文是学习【莫烦python】的课程笔记没找到本子就记在这里了,课程网址如下:https://www.bilibili.com/video/BV13W411Y75P?p=1一、Q-learning简介1.情景叙述机器学习就是一个不断试错,不断学习的过程,为了简化问题,下图中的例子只考虑a1,a2两种情况,s1表示状态1,a1表示动作看电视,a2表示动作写作业。孩子做a1,a2的不同抉择,会影响之后的状态,如果孩子在每一个状态s中都一直重复看电视的a1动作,原创 2021-08-11 21:38:51 · 388 阅读 · 0 评论