26、强化学习中的Q学习：从基础到高级应用

postgres8guard

于 2025-09-23 02:58:36 发布

阅读量51

点赞数

CC 4.0 BY-SA版权

分类专栏：树莓派玩转机器学习文章标签： Q学习强化学习深度Q网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/postgres8guard/article/details/151982004

树莓派玩转机器学习专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的Q学习：从基础到高级应用

1. 简单Q学习脚本运行与结果分析

1.1 脚本运行

运行以下命令来执行简单的Q学习脚本：

python simpleRL.py

1.2 结果分析

运行脚本后，会得到收敛分数与完成的回合数的关系图。从图中可以明显看出，大约在完成400个回合后达到最大得分。脚本硬编码为运行700个回合，超过400回合后再运行300个回合所需的额外时间非常少。

最终脚本结果的终端窗口包含了许多有趣的信息：
- 临时回合结果 ：显示了Q函数的最大值和得分，得分是未归一化的最优路径值。
- 奖励矩阵R ：有两个重要特征。一是在R(2, 6)和R(6, 6)位置有两个100的奖励值，R(2, 6)表示节点2和节点7之间的直接路径奖励，R(6, 6)是自吸收链接或目标节点的回环；二是现有链接的值为0，不存在的链接的值为 -1。
- 增强和归一化的Q矩阵 ：由于Python 3的打印语句会换行，导致矩阵较难阅读，且矩阵值以浮点数显示，增加了阅读难度。
- 最优路径 ：最终显示的最优路径为0到1到2到7。

2. 恶劣环境下的Q学习演示

2.1 问题描述

在某些强化学习项目中，环境对试图导航路径的智能体并不友好。以一群蜜蜂试图到达位于节点7的蜂巢为例，蜜蜂不喜欢烟雾，会不惜一切代价避开它。在随机生成

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。