大规模离散动作空间内的深度强化学习
摘要
处理这样的任务需要:1. 在动作集合上的泛化能力; 2. 次线性查找复杂度。
本文提出方法,利用先验知识将动作嵌入连续空间使其可以泛化;采用近似最近邻算法达到log(n)\log (n)log(n)查找复杂度。
背景知识介绍
强化学习方法可分为两类:value-based policy, action-based policy.
- value-based policy, 基于值函数直接做出决策,如Q-learning,DQN等。优点是具有泛化性,可以用平滑函数提取action的特征,使得相似action具有相近的动作值,缺点是action的选取需要遍历整个动作空间。
- action-based policy, 策略由参数化的actor给出动作概率分布,如策略梯度,actor-critic等。避免了计算复杂度,但是无法对action进行泛化。
此外,以前对于大规模离散动作空间的处理,要么是将动作空间分解为