29、基于增量拓扑保持映射的模糊Q学习(ITPM - FQL)方法解析

基于增量拓扑保持映射的模糊Q学习(ITPM - FQL)方法解析

1. 引言

强化学习(RL)是一种适用于自主学习智能体获取策略的范式,它无需初始知识,通过“评价性”或“批判性”信息进行学习,与监督学习使用的“指导性”信息不同。强化学习主要有两种类型:演员 - 评论家学习和Q学习。其中,Q学习因其简单性和坚实的理论基础,成为应用最广泛的学习范式。在Q学习中,Q向量用于评估动作的性能,通过选择Q向量中Q值最高的动作来决策。

然而,传统的Q学习方法只能处理离散状态和动作,而在现实世界中,学习智能体需要应对连续状态和动作。例如,在机器人应用中,机器人需要以最平滑的动作响应动态变化的环境状态,不合适的离散动作还可能损坏机器人硬件。

为了处理连续状态和动作,多年来许多研究者对Q学习方法进行了改进。连续动作Q学习(CAQL)是一种能够处理连续状态和动作的Q学习方法,但它不如模糊Q学习(FQL)受欢迎,因为CAQL缺乏坚实的理论基础。FQL使用理论上可靠的模糊推理系统(FIS),因此更受青睐。

FIS的识别分为结构识别和参数识别两个阶段。FQL主要关注参数的自动识别,而结构识别仍是一个开放问题。为了解决结构识别问题,动态模糊Q学习(DFQL)被提出,它能根据ε - 完备性和时间差分准则生成模糊规则,实现FIS的自动调整。但DFQL的模糊规则不能根据输入分布的变化进行调整,可能会生成不恰当和冗余的规则。动态自生成模糊Q学习(DSGFQL)提出修改每个规则的隶属函数并删除冗余规则,但未讨论模糊规则位置的调整。增强型动态自生成模糊Q学习(EDSGFQL)使用扩展的自组织映射(SOM)算法来克服DSGFQL的不足。

本文提出了基于增量拓扑保持映射的模糊Q学习(I

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值