Q-learning和Sarsa的区别

本文深入探讨了SARSA与Q-Learning两种强化学习算法的区别。SARSA采取较为保守的策略,考虑当前状态下采取动作后的下一步动作,而Q-Learning则追求最短路径,可能忽略潜在风险。SARSA在选择下一个动作时存在探索可能性,体现了on-policy学习特性;Q-Learning则只评估使下一状态Q值最大的动作,体现off-policy学习特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
因此对于SARSA来说
1.在状态s’时,就知道了要采取哪个a’,并真的采取了这个动作。
2.动作a的选取遵循e-greedy策略,目标Q值的计算也是根据(e-greedy)策略得到的动作a’计算得来,因此为on-policy学习。
(选择下个动作的存在探索的可能性)

而对于Q-learning来说

  1. 只会选择使得下个状态Q值最大的下个动作。
  2. Q-learning 只会估计下个动作是什么(使得下个状态最大的动作),但是下个动作不一定会采取,下个动作会进行重新的e-greedy策略选择。

####Q learning 机器人 永远都会选择最近的一条通往成功的道路, 不管这条路会有多危险. 而 Sarsa 则是相当保守, 他会选择离危险远远的, 拿到宝藏是次要的, 保住自己的小命才是王道. 这就是使用 Sarsa 方法的不同之处.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值