上期我们一起学习了强化学习中的马尔科夫决策过程的相关知识,
深度学习算法(第35期)----强化学习之马尔科夫决策过程
今天我们学习强化学习中的时间差分学习与Q学习的相关知识。
时间差分学习
具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程,但是智能体最初不知道转移概率是什么,并且它不知道奖励会是什么。它必须经历每一个状态和每一次转变并且至少知道一次奖励,并且如果要对转移概率进行合理的估计,就必须经历多次。
时间差分学习(TD 学习)算法与数值迭代算法非常类似,但考虑到智能体仅具有 MDP 的部分知识。一般来说,我们假设智能体最初只知道可能的状态和动作,没有更多了。智能体使用探索策略,例如,纯粹的随机策略来探索 MDP,并且随着它的发展,时间差分学习算法基于实际观察到的转换和奖励来更新状态值的估计,如下:
其中 α是学习率(比如:0.01)。
TD 学习与随机梯度下降有许多相似之处,特别是它一次处理一个样本的行为。就像 SGD 一样,只有当你逐渐降低学习率时,它才能真正收敛(