基于增量拓扑保持映射的模糊Q学习(ITPM - FQL)方法解析
1. 引言
强化学习(RL)是一种适用于自主学习智能体获取策略的范式,它无需初始知识,通过“评价性”或“批判性”信息进行学习,与监督学习使用的“指导性”信息不同。强化学习主要有两种类型:演员 - 评论家学习和Q学习。其中,Q学习因其简单性和坚实的理论基础,成为应用最广泛的学习范式。在Q学习中,Q向量用于评估动作的性能,通过选择Q向量中Q值最高的动作来决策。
然而,传统的Q学习方法只能处理离散状态和动作,而在现实世界中,学习智能体需要应对连续状态和动作。例如,在机器人应用中,机器人需要以最平滑的动作响应动态变化的环境状态,不合适的离散动作还可能损坏机器人硬件。
为了处理连续状态和动作,多年来许多研究者对Q学习方法进行了改进。连续动作Q学习(CAQL)是一种能够处理连续状态和动作的Q学习方法,但它不如模糊Q学习(FQL)受欢迎,因为CAQL缺乏坚实的理论基础。FQL使用理论上可靠的模糊推理系统(FIS),因此更受青睐。
FIS的识别分为结构识别和参数识别两个阶段。FQL主要关注参数的自动识别,而结构识别仍是一个开放问题。为了解决结构识别问题,动态模糊Q学习(DFQL)被提出,它能根据ε - 完备性和时间差分准则生成模糊规则,实现FIS的自动调整。但DFQL的模糊规则不能根据输入分布的变化进行调整,可能会生成不恰当和冗余的规则。动态自生成模糊Q学习(DSGFQL)提出修改每个规则的隶属函数并删除冗余规则,但未讨论模糊规则位置的调整。增强型动态自生成模糊Q学习(EDSGFQL)使用扩展的自组织映射(SOM)算法来克服DSGFQL的不足。
本文提出了基于增量拓扑保持映射的模糊Q学习(I
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



