强化学习(二)——Q learning、Sarsa、Deep Q learning三种算法思想

本文介绍了强化学习中的三种算法:Q learning、Sarsa和Deep Q learning。Q learning使用Q table进行决策,通过更新策略进行学习;Sarsa则在每次决策时确定下一步动作,实现在线学习;Deep Q learning结合神经网络处理大量状态,通过Experience Replay和Target Network提高训练效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Q learning算法

     如上图所示,Q learning的决策值(基于值的一种算法)存储在一张Q table中。可以先设定a1的奖励值为-2,a2的奖励值为1,那么在s1状态下我们选择奖励值大的动作a2,这就是上图中的Q(S1,a2)估计,接下来状态变为s2。

     更新思想:但是Q table中的决策值只是我们先假定的决策值,这不是最优的。因此需要每走一步就更新一次(单步更新)。如何进行更新呢?借助上图中Q(S1,a2)现实的表达式,这里Q(S1,a2)现实之所以称作现实,我理解的是:表格中s1状态下的两个行为a1和a2的奖励值,并不是我们真正获取的奖励值,而是预期获取的奖励值。因为选择了a2动作后到达s2,不仅获得了即时的奖励值R,而且还有一个s2状态对未来期望的reward值,那么不难理解其称作现实。根据Q(S1,a2)现实和Q(S1,a2)估计的差值对原来的Q(S1,a2)决策值进行更新。

</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值