DL难以应用于RL的原因 标签:DL需要大量标签好的训练集,而RL在一个具有延迟性、噪声、稀疏性的标量reward signal中学习。这种延迟存在于action 和其reward之中,使得难以建立出类似监督学习中输入与目标的直接关联相关性:DL中的样本数据之间是不互相影响的,而RL 的state序列是高度相关性的(因此导致其样本也是高度相关性的)。概率分布:DL中的数据分布概率是固定的,而RL中的数据分布概率随着学习的策略而改变。