基于直接搜索的顺序决策与相关市场模型探讨
1. SSA解决元试验时间消耗问题
元试验通常会消耗大量时间,而SSA以自然且直接的方式解决了这一问题。在SSA中,试验和元试验没有明确区别,新的有效试验会在之前已开始但未完成的有效试验中开启。这意味着早期的策略修改(SPM)会自动被评估是否为后期“良好”的SPM奠定基础。例如,如果一个早期SPM改变策略的方式增加了某些后期SPM在无用策略变更评估上浪费时间的可能性,SSA最终会舍弃该早期SPM。SSA会自动衡量(根据学习和测试过程影响的奖励/时间比率)早期学习对后期学习的影响,更倾向于使未来“良好”SPM更可能出现的SPM。在允许从简单学习动作(LAs)组合通用信用分配策略的动作集下,SSA会偏好能产生更好概率学习算法的概率学习算法。并且,一旦元试验违反成功故事标准所施加的约束,SSA就会像对待“正常”试验一样结束它。
2. SSA的实现
SSA保证在每个检查点后满足成功故事标准(SSC),即使在部分可观察、具有未知延迟的随机环境中也是如此。尽管不等式(1)包含|V|个分数,但SSA可以高效实现,在一次SSA调用中,给定时间只需考虑栈顶的两个最新有效修改序列。不过,一次SSA调用如有必要可能会使许多SPM无效。
3. SSA增强直接搜索方法
直接搜索策略空间的方法,如随机爬山法(SHC)和遗传算法(GAs),在限时试验中测试策略候选者,然后根据目前观察到的最高评估策略构建新的策略候选者。与传统强化学习(RL)算法相比,这种通用方法的优势在于对智能体与环境交互的性质施加的限制较少。特别是,如果策略允许操作某种短期记忆内容的动作,环境不需要完全可观察。原则上,像遗传编程(GP)、自适应列文搜索