强化学习中的Q学习:从基础到高级应用
1. 简单Q学习脚本运行与结果分析
1.1 脚本运行
运行以下命令来执行简单的Q学习脚本:
python simpleRL.py
1.2 结果分析
运行脚本后,会得到收敛分数与完成的回合数的关系图。从图中可以明显看出,大约在完成400个回合后达到最大得分。脚本硬编码为运行700个回合,超过400回合后再运行300个回合所需的额外时间非常少。
最终脚本结果的终端窗口包含了许多有趣的信息:
- 临时回合结果 :显示了Q函数的最大值和得分,得分是未归一化的最优路径值。
- 奖励矩阵R :有两个重要特征。一是在R(2, 6)和R(6, 6)位置有两个100的奖励值,R(2, 6)表示节点2和节点7之间的直接路径奖励,R(6, 6)是自吸收链接或目标节点的回环;二是现有链接的值为0,不存在的链接的值为 -1。
- 增强和归一化的Q矩阵 :由于Python 3的打印语句会换行,导致矩阵较难阅读,且矩阵值以浮点数显示,增加了阅读难度。
- 最优路径 :最终显示的最优路径为0到1到2到7。
2. 恶劣环境下的Q学习演示
2.1 问题描述
在某些强化学习项目中,环境对试图导航路径的智能体并不友好。以一群蜜蜂试图到达位于节点7的蜂巢为例,蜜蜂不喜欢烟雾,会不惜一切代价避开它。在随机生成
超级会员免费看
订阅专栏 解锁全文

2799

被折叠的 条评论
为什么被折叠?



