强化学习之Q-learning

本文深入探讨了强化学习中on-policy与off-policy的区别,通过对比SARSA与Q-learning等经典算法,阐述了行为策略与估计策略分离的优势,有助于理解如何在实际应用中选择合适的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

强化学习的一个实例

增强学习Reinforcement Learning经典算法梳理3:TD方法

on-policy和off-policy的区别

知乎on-policy和on-policy的区别

sarsa和q-learning的区别

Q-learning的最大化偏置问题(Maximization Bias)


1 on-policy与off-policy的本质区别

更新Q值时所使用的方法是既定的策略(on-policy)还是使用其他策略(off-policy).


 SARSAQ-learning
选择下一步动作 a‘ππ
更新Q值πμ

Reinforcement Learning An Introduction原文解释:

We are now ready to present an example of the second class of learning control methods we consider in this book: off-policy methods. Recall that the distinguishing feature of on-policy methods is that they estimate the value of
a policy while using it for control. In off-policy methods these two functions are separated. The policy used to generate behavior, called the behavior policy, may in fact be unrelated to the policy that is evaluated and improved, called the estimation policy. An advantage of this separation is that the estimation policy may be deterministic (e.g., greedy), while the behavior policy can continue to sample all possible actions.
讲的是off-policy方法 行为策略估计策略是分离的,行为策略是用来做决策的,也就是选择下一步动作的,而估计策略是确定的,例如贪心策略,用来更新值函数的。这种分离的优点是估计策略是确定的,同时行为策略能够持续抽样所有可能的动作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值