强化学习：Q Learning

最新推荐文章于 2025-05-19 17:39:34 发布

原创最新推荐文章于 2025-05-19 17:39:34 发布 · 171 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #python

本文探讨了Q-Learning算法在无学习经历时如何通过试错学习，并根据Q表选择动作。Q表的更新基于未来奖励的预期，这种得分反映了行为的长期影响。尽管最佳行为可能不会总是被选择，存在一定概率探索其他行为，以避免过拟合。随着学习的深入，未来的奖励对当前状态的影响会逐渐衰减。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

没有任何的学习经历，经过随机的action三次看电视，最终获得了惩罚，会记下这次经历。 QLearning会将没有写完作业就看电视这个行为记录为负面的行为。

有了学习经历后，会根据Q表来判断哪个收益较大来进行action的选择。

虽然没有做出a2这个动作，但是可以根据在s2下进行a2的动作对在s1状态下做出a2进行打分，从而进行更新Q表。

对这个公式的理解：也就是说，根据表的得分就相当于一个局部的最优值？然后根据每次动作会对后面产生的影响，从而更新这步动作的得分。得分是一个深远的影响，但是他的值是暂时的，是会根据每部动作产生变化？

这个值，是行为产生的随机性，也就是说并不是说得分最好的行为就一定会被选择，会有一定的概率来选择其他的行为。这类似于避免一个过拟合？让行为进行探索，并不是说得分好就一定是最好的？

对于Qs1来说，以后的奖励对他的权重会没那么大，会有一个衰减的过程。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。