基于FAST的Q学习算法:提升学习速度与稳定性
1. 引言
Q学习是一种随机动态规划算法,无需机器 - 环境交互模型。它根据状态 “s” 采取行动 “a”,逐步测量反馈奖励并更新Q值。在合理的学习周期内,Q学习表现出色,已成功应用于避障、归巢和机器人协作等领域。
传统的Q学习算法中,解码器会将输入空间预先划分为网格(称为盒子),将输入向量映射到激活的盒子。然而,这种预先划分输入空间的方式并非适用于所有系统,尤其是未知系统。因此,像CMAC、ART、FAST等理论被提出,用于替代盒子解码器对输入向量进行聚类,使输入向量能映射到更合适的聚类中,以获得更好的状态 - 动作值,达到理想的控制效果。
ART是一种无监督学习的人工神经网络,能解决稳定性 - 可塑性困境。FAST算法融合了ART可变警戒值的优点和GAR定理的修剪机制,弥补了盒子方法每个输入向量仅映射一个激活盒子的缺点。它能动态调整激活神经元的敏感区域大小和位置,使类别之间的边界可变,从而为提高系统学习速度提供更合适的输入。此外,当一个输入模式激活多个神经元时,FAST的修剪机制会适当修剪其中一个具有重叠敏感区域的神经元,以保留资源容纳更多类别。
本文旨在将基于FAST的算法与Q学习算法结合,形成一种名为ARM Q学习的强化学习算法,以提高Q学习算法的学习速度和稳定性。文章分为四个部分:第一部分为引言;第二部分讨论聚类和强化学习的理论;第三部分展示模拟结果和结果分析;最后一部分进行讨论。
2. 理论
2.1 自适应共振理论
ART是一种动态神经网络结构,通过反馈机制产生自上而下的期望。一个神经元不仅要在竞争中获胜,还需与该期望匹配才能进行学习
超级会员免费看
订阅专栏 解锁全文
1312

被折叠的 条评论
为什么被折叠?



