基于FAST的Q学习算法:原理、改进与仿真验证
1. 引言
Q学习是一种随机动态规划算法,无需机器 - 环境交互模型。依据状态 “s” 采取行动 “a”,该算法会衡量反馈奖励,并逐步根据奖励更新其Q值。在合理的学习周期内,Q学习表现出色,已成功应用于避障、归巢和机器人协作等领域。
传统Q学习算法中,解码器会预先将输入空间划分为网格,即 “盒子”,把输入向量映射到激活的盒子。然而,这种预先划分输入空间的方式并非适用于所有系统,尤其是未知系统。因此,如CMAC、ART、FAST等理论被提出,以取代盒子解码器对输入向量进行聚类,使输入向量能映射到更合适的聚类中,从而获得更好的状态 - 动作值,实现理想的控制效果。
ART是一种无监督学习的人工神经网络,能解决稳定性 - 可塑性困境。FAST算法融合了ART可变警戒值的优势和GAR定理的修剪机制,弥补了盒子方法每个输入向量仅映射一个激活盒子的不足。它能动态调整激活神经元的敏感区域大小和位置,使类别边界可变,为提高系统学习速度提供更合适的输入。当输入模式激活多个神经元时,FAST的修剪机制会适当修剪具有重叠敏感区域的神经元,以保留资源容纳更多类别。
本文旨在将基于FAST的算法与Q学习算法结合,形成一种名为ARM Q学习的强化学习算法,以提高Q学习算法的学习速度和稳定性。文章分为四个部分:第一部分为引言;第二部分讨论聚类和强化学习的理论;第三部分展示仿真结果和分析;第四部分进行讨论。
2. 理论
2.1 自适应共振理论(ART)
ART是一种动态神经网络结构,通过反馈机制产生自上而下的期望。神经元不仅要在竞争中获胜,还需与该期望匹配才能进行学习。当前馈路
超级会员免费看
订阅专栏 解锁全文
1622

被折叠的 条评论
为什么被折叠?



