model-free RL(依靠真实世界的反馈):
1.Q learning
2.Sarsa
3.Policy Gradients
model-based RL(可以在想象中模拟):
1.Q learning
2.Sarsa
3.Policy Gradients
policy-based RL(基于概率):不一定选择最高概率
1.Policy Gradients
value-based RL:一定选择最大价值,连续的动作无法用基于价值
1.Q learning
2.Sarsa
actor-critic:两种方法结合,基于概率做出动作,critic对做出的动作给出它的价值
Monte-Carlo update(回合更新):游戏结束后再更新
1.基础版Policy Gradients
2.Monte-Carlo learning
Temporal-Difference update(单步更新):游戏中边玩边更新
1.Q learning
2.Sarsa
3.升级版Policy Gradients
On-Policy(在线学习):自己边玩边学
1…Sarsa
2.Sarsa(λ)
Off-Policy(离线学习):可以看别人玩而学习
1.Q learning
2.Deep Q Network
本文深入解析了强化学习的各种算法,包括model-free RL如Q-learning和Sarsa,model-based RL,policy-based RL,value-based RL,actor-critic方法,以及学习更新策略如Monte-Carlo和Temporal-Difference update。同时探讨了On-Policy与Off-Policy的学习方式。
966

被折叠的 条评论
为什么被折叠?



