强化学习中的关键概念与方法解析
1. 强化学习研究主题概述
强化学习领域有多个重要的研究主题,下面为你详细介绍:
1.1 分层强化学习
在强化学习中,当状态空间变得过大时,智能体难以找到任务的最优策略,这影响了其在大型系统中的实际应用。分层强化学习通过将生成任务分解为多个子任务,每个子任务的状态空间较小,从而更易找到解决方案。也就是说,我们学习生成子任务的策略层次结构,而非为整个任务学习单一策略。分层强化学习具有显著优势,能有效解决状态空间过大的问题。
1.2 SMDP 模型
SMDP 模型可转换为分层强化学习,它在强化学习中也有一定的应用和研究价值。
1.3 带 HAM 的强化学习
HAM 用于将部分策略编写为一组带有未指定选择状态的分层有限状态机,并使用强化学习来学习该部分策略的最优完成方式。其框架包含五种类型的机器状态,并且有相应的算法运行流程。例如,在移动机器人的 HAM 示例中,有导航机器和移动速度机器,还给出了该示例的伪代码。另外,在 RoboCup 控球示例中也有 HAM 的应用,并编写了其伪代码。
1.4 MAXQ 值函数分解
MAXQ 描述了如何将策略的整体值函数分解为各个子任务(以及递归子任务)的值函数集合。以出租车世界为例,详细说明了如何进行任务分解。
2. 马尔可夫决策过程(MDP)
2.1 MDP 定义与组成
满足马尔可夫性质的强化学习任务称为马尔可夫决策过程(MDP)。若状态和动作空间有限,则称为有限 MDP,有限 MDP 在强化学习理论中尤为重要。M
超级会员免费看
订阅专栏 解锁全文
2798

被折叠的 条评论
为什么被折叠?



