目录 基本概念 TD(0) n-step TD TD(λ) 总结 基本概念 先看差分的定义: 差分表示一种差异,小区间上的增量,可以类比于函数中的导数,度量变化的一个指标; 直觉上,当系统趋于稳定时,自变量的变化引起的函数值的变化趋近于0. 在强化学习中,差分是指 我们希望它越小越好,使系统趋于稳定。 那时序又是指什么? 在强化学习场景下,Agent不断地与环境交互,产生数据,本身就是时序的,这是大背景。 时序差分还有更重要的特性: 时序的另一层含义是自举(boot