基于直接搜索的顺序决策:优势、应用与挑战
1. 引言
顺序决策中的挑战性问题包括决策者环境的部分可观测性、分层和其他类型的抽象信用分配、信用分配算法的学习,以及在没有先验世界模型的情况下进行探索。直接搜索(DS)在策略空间中为解决这些问题提供了比基于价值函数和动态规划的强化学习(RL)更自然的框架。不过,传统的DS方法在随机环境、随机策略以及行动与可观测效果之间存在未知时间延迟的情况下存在根本缺陷。
在基于强化学习的顺序决策中,有两类广泛的学习算法:
- 基于动态规划(DP)的方法。DP - 基于的RL(DPRL)学习一个将输入/动作对映射到预期折扣未来奖励的价值函数,并使用DP的在线变体来构建有回报的策略。
- 策略空间中的直接搜索(DS)。DS直接运行和评估策略,可能会根据到目前为止观察到的最高评估结果构建新的策略候选。DS方法包括随机爬山(SHC)的变体、进化策略、遗传算法(GAs)、遗传编程(GP)、列文搜索(Levin Search)及其自适应扩展。
2. 直接搜索的优势
2.1 无需状态
DPRL的有限时间收敛证明要求环境可以量化为有限数量的离散状态,并且描述在特定动作下从一个状态到下一个状态可能转换的拓扑结构是事先已知的。但在实际中,即使现实世界可以量化为离散状态空间,这个空间通常也是难以访问和未知的。而DS完全避免了价值函数和状态识别的问题,它只关心测试策略并保留效果最佳的策略。
2.2 无马尔可夫限制
DPRL的收敛证明还要求学习者的当前输入传达关于当前状态的所有信息(或至少关于最优下一个动作的信息)。但在现实世界中,当前的感官输入通常几乎不能提供关于