26、强化学习中的Q学习:从基础到高级应用

强化学习中的Q学习:从基础到高级应用

1. 简单Q学习脚本运行与结果分析

1.1 脚本运行

运行以下命令来执行简单的Q学习脚本:

python simpleRL.py

1.2 结果分析

运行脚本后,会得到收敛分数与完成的回合数的关系图。从图中可以明显看出,大约在完成400个回合后达到最大得分。脚本硬编码为运行700个回合,超过400回合后再运行300个回合所需的额外时间非常少。

最终脚本结果的终端窗口包含了许多有趣的信息:
- 临时回合结果 :显示了Q函数的最大值和得分,得分是未归一化的最优路径值。
- 奖励矩阵R :有两个重要特征。一是在R(2, 6)和R(6, 6)位置有两个100的奖励值,R(2, 6)表示节点2和节点7之间的直接路径奖励,R(6, 6)是自吸收链接或目标节点的回环;二是现有链接的值为0,不存在的链接的值为 -1。
- 增强和归一化的Q矩阵 :由于Python 3的打印语句会换行,导致矩阵较难阅读,且矩阵值以浮点数显示,增加了阅读难度。
- 最优路径 :最终显示的最优路径为0到1到2到7。

2. 恶劣环境下的Q学习演示

2.1 问题描述

在某些强化学习项目中,环境对试图导航路径的智能体并不友好。以一群蜜蜂试图到达位于节点7的蜂巢为例,蜜蜂不喜欢烟雾,会不惜一切代价避开它。在随机生成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值