31、基于FAST的Q学习算法:原理、改进与仿真验证

基于FAST的Q学习算法:原理、改进与仿真验证

1. 引言

Q学习是一种随机动态规划算法,无需机器 - 环境交互模型。依据状态 “s” 采取行动 “a”,该算法会衡量反馈奖励,并逐步根据奖励更新其Q值。在合理的学习周期内,Q学习表现出色,已成功应用于避障、归巢和机器人协作等领域。

传统Q学习算法中,解码器会预先将输入空间划分为网格,即 “盒子”,把输入向量映射到激活的盒子。然而,这种预先划分输入空间的方式并非适用于所有系统,尤其是未知系统。因此,如CMAC、ART、FAST等理论被提出,以取代盒子解码器对输入向量进行聚类,使输入向量能映射到更合适的聚类中,从而获得更好的状态 - 动作值,实现理想的控制效果。

ART是一种无监督学习的人工神经网络,能解决稳定性 - 可塑性困境。FAST算法融合了ART可变警戒值的优势和GAR定理的修剪机制,弥补了盒子方法每个输入向量仅映射一个激活盒子的不足。它能动态调整激活神经元的敏感区域大小和位置,使类别边界可变,为提高系统学习速度提供更合适的输入。当输入模式激活多个神经元时,FAST的修剪机制会适当修剪具有重叠敏感区域的神经元,以保留资源容纳更多类别。

本文旨在将基于FAST的算法与Q学习算法结合,形成一种名为ARM Q学习的强化学习算法,以提高Q学习算法的学习速度和稳定性。文章分为四个部分:第一部分为引言;第二部分讨论聚类和强化学习的理论;第三部分展示仿真结果和分析;第四部分进行讨论。

2. 理论
2.1 自适应共振理论(ART)

ART是一种动态神经网络结构,通过反馈机制产生自上而下的期望。神经元不仅要在竞争中获胜,还需与该期望匹配才能进行学习。当前馈路

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值