基于直接搜索的顺序决策制定
1. 直接搜索与传统强化学习对比
直接搜索(DS)在策略空间中相较于传统强化学习(RL)具有多个优势:
- 无需关于世界状态及其交互拓扑的先验信息。
- 不关心环境是否完全可观测。
- 使分层信用分配在概念上变得简单,并且允许许多替代的、非分层类型的抽象信用分配。
然而,现有的DS方法在存在环境随机性和/或动作与可观测效果之间未知时间延迟的情况下,会遇到一些基本问题。特别是,它们没有一种原则性的方法来决定何时停止策略评估。
2. 成功故事算法(SSA)
SSA是一种随机策略评估方法,与传统DS不同。SSA不会因为缺乏经验证据表明某个先前的策略更改对终身奖励加速有贡献,就停止对其进行评估。每次调用SSA时,都会回顾性地建立一个幸存的自我修改的成功历史:只有那些到目前为止在经验上证明了其长期有用性的策略更改,才有机会再次证明自己。这从长远来看稳定了“真正有用”的策略更改。
与许多传统的基于价值函数的RL方法不同,SSA不限于完全可观测的世界,并且不需要对未来奖励进行折扣。它与传统DS算法共享这些优势。但与随机爬山和其他DS方法(如遗传算法)不同,SSA不太依赖于关于合理试验长度的先验知识,而这些知识对于收集足够的统计数据以估计测试策略的长期后果和真实价值是必要的。
以下是将SSA融入DS方法的操作步骤:
1. 测量所有动作、策略修改和策略测试所使用的时间。
2. 偶尔插入调用SSA的检查点。
通过这种方式,许多DS方法可以很容易地通过SSA进行增强。从这个意义上说,SSA的基本概念不是特定于算法的,而是反映了一种新颖的、通用