强化学习
文章平均质量分 57
lix_gogogo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Q-learning和Sarsa区别的理解之为什么Sarsa保守
值得一提的是,虽然Q-learning算法在才开始学习时也可能会用跳崖的值函数去更新,但很快绝对不会再用跳崖的值函数去更新其他位置值函数),此时就会使这一动作值函数的值较Q-learning明显偏小,故较为保守。例如,当在远离悬崖的第二排时(上图S状态),会做出向下的动作a,得到沿着悬崖的状态S',沿着悬崖的状态S'向下的动作a_Sarsa会有很低的奖励,例如-100,而沿着悬崖走向右的动作a_Q-learning对应的累积回报却很可观,因为会减少抵达目标的步数,从而使累积回报的期望较大。原创 2023-06-14 14:57:31 · 563 阅读 · 0 评论 -
强化学习之Sarsa-lambda方法
介绍了回合更新Sarsa-lamda,并用简单代码进行实现。原创 2023-02-26 11:26:22 · 254 阅读 · 0 评论 -
强化学习之Deep Q Network的理解
对Deep Q learning进行初步介绍和理解,若不正确还请指正原创 2023-02-25 12:03:51 · 416 阅读 · 0 评论 -
强化学习之Sarsa
通过将Q-learning和Sarsa对比简单介绍了Sarsa算法,根据个人理解指出了Sarsa算法与Q-learning的不同。最后,通过一个简单例子实现了Sarsa强化学习算法原创 2023-02-25 11:21:54 · 299 阅读 · 0 评论 -
强化学习之Q-learning
以一个例子简单介绍了Q-learing的方法原创 2023-02-24 17:57:15 · 1479 阅读 · 0 评论
分享