强化学习与神经模糊系统:原理、方法与应用
强化学习的挑战与解决方案
强化学习(RL)在处理大任务空间或稀疏奖励问题时学习速度缓慢。为克服这一问题,有多种方法可供选择。
顺序任务分解
当一系列复杂任务可通过有限数量的“基本”任务或技能完成时,顺序任务分解方法很有用。例如,可将原始任务目标通过时间上串联多个基本任务形成“复合”任务来实现,如 $C_j = [ T ( j , 1), T ( j , 2), … , T ( j , k)]$,其中 $T ( j , i) \in {T_1, T_2, … , T_n}$ 。为每个基本任务定义奖励函数,使奖励比原始问题定义更丰富。
不同学者提出了相关算法:
- Singh(1992a, b)提出基于模块化神经网络的算法,控制器需同时学习基本任务和复合任务的分解。
- Tham 和 Prager(1994)以及 Lin(1993)也提出了类似解决方案。
- Mahadevan 和 Connell(1991)开发了基于包容架构的方法,用户预先指定任务分解,控制器只需学习基本任务。
- Maes 和 Brooks(1990)表明在类似框架下控制器也能学习任务分解。
然而,这些方法都需要外部机构指定问题分解,控制器自身学习问题分解的研究虽有初步结果,但还有很多工作要做。
分层控制
分层控制是另一种解决方法,不同层次的控制器在不同时间分辨率下运行,每个层次学习执行比下一层更抽象的任务,并指导下层控制器实现其目标。例如,在船舶航行中,导航员决定航行方向,舵手按指示方向驾驶船舶,导航员是高层控制器,舵手是低层控制器。由于高层控制器处理的任务空间较小,低
强化学习与神经模糊系统融合
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



