1. 背景介绍
1.1 强化学习的局限性
强化学习(Reinforcement Learning,RL)作为机器学习的一个重要分支,近年来取得了令人瞩目的成就,例如 AlphaGo、AlphaStar 等在游戏领域战胜了人类顶尖选手。然而,传统的强化学习方法在面对复杂任务时,往往会遇到以下挑战:
- 状态空间爆炸:复杂任务通常具有庞大的状态空间,传统的强化学习算法难以有效地探索和学习如此巨大的状态空间。
- 信用分配问题:复杂任务通常需要执行一系列动作才能获得最终奖励,如何将最终奖励合理地分配给之前的每个动作是强化学习中的一个难题。
- 泛化能力不足:传统的强化学习算法通常只能学习特定任务的策略,难以泛化到新的但类似的任务中。
1.2 层次强化学习的引入
为了解决上述挑战,层次强化学习(Hierarchical Reinforcement Learning,HRL)应运而生。HRL 的核心思想是将复杂任务分解成多个层次的子任务,每个子任务都由一个独立的策略来完成。通过这种方式,HRL 可以有效地降低状态空间的维度,缓解信用分配问题,并提高策略的泛化能力