基于增量拓扑保持映射的模糊Q学习(ITPM - FQL)方法解析
1. 强化学习与Q学习概述
强化学习(RL)是一种适用于自主学习智能体获取策略的范式,它通过简单的“评价性”或“批判性”信息进行学习,而不是像监督学习那样依赖“指导性”信息。RL主要有两种类型:Actor - Critic学习和Q学习。其中,Q学习因其简单性和坚实的理论基础,成为应用最广泛的学习范式。在Q学习中,通过Q向量评估动作性能,并选择Q值最高的动作。然而,传统Q学习只能处理离散状态和动作,在现实世界中,智能体需要应对连续状态和动作,例如机器人应用中,机器人需要以最平滑的动作响应动态变化的环境状态,并且不恰当的离散动作可能会损坏机器人硬件。
为了处理连续状态和动作,研究人员对Q学习方法进行了改进。连续动作Q学习(CAQL)是一种能够处理连续状态和动作的Q学习方法,但它不如模糊Q学习(FQL)流行,因为CAQL缺乏坚实的理论基础,而FQL使用了理论上合理的模糊推理系统(FIS)。因此,本文提出的方法基于FQL技术。
2. FIS识别与相关方法发展
FIS识别分为结构识别阶段和参数识别阶段。结构识别阶段定义了如何生成模糊规则,参数识别阶段确定模糊规则的前提参数和结果部分。FQL方法主要侧重于自动处理参数识别,而结构识别在FQL中仍然是一个未解决的问题。
为了解决结构识别问题,动态模糊Q学习(DFQL)被提出。DFQL的显著特点是它可以根据ε - 完备性和时间差分准则生成模糊规则,从而自动调整FIS。然而,DFQL的缺点是模糊规则不能根据输入分布的变化进行调整,一旦生成规则,规则将保持在初始位置,这可能导致生成不恰当和冗余的规则。
动态自生成模糊Q学习
超级会员免费看
订阅专栏 解锁全文
1530

被折叠的 条评论
为什么被折叠?



