马可夫决策过程(MDP)
强化学习的目标是最大化累积奖赏,这一点与马可夫决策过程(MDP)的目标一致,因此强化学习也常常用MDP来建模。
MDP的细节
一个MDP定义为四元组<S, A, T, R>,其中:
S表示环境状态的集合;A为“动作”集合,即学习器的输出值域;T为转移函数,定义了环境的根据动作的转移;R为奖赏函数,定义了动作获得的奖赏。
MDP寻找最优动作策略以最大化累计奖赏。
当MDP的四元组全部给出且S和A为有限集合时,求解最优策略的问题即转变为求解每一个状态上最优动作这一优化问题,而该优化问题通常可以通过动态规划来求解:在最终时刻,只需要考虑立即获得的奖赏,即可得知每个状态最优动作获得的奖赏;这一时刻状态的最优奖赏,随后用于求解退一时刻状态的最优动作和最优奖赏。这一关系即著名的Bellman等式[90]。
因为MDP四元组全部已知,实际上并不需要与环境交互,也没有“学习”的味道,动态规划就可以保证求解最优策略。
MDP与强化学习
强化学习通常要面临的难题是,对于学习器,MDP四元组并非全部已知,即“无模型” (model-free)。最常见的情况是转移函数T未知以及奖赏函数R未知,这时就需要通过在环境中执行动作、观察环境状态的改变和环境给出的奖赏值来学出T和R。
强化学习的分类
我们可以把强化学习方法分为两种:
1)基于值函数估计的方法 基于值函数估计的方法试图在与环境交互的过程中估计出每一状态上每一动作对应的累积奖赏,从而得出最佳策略。 这一类方法的代表有时序差分算法(Temporal difference learning)和Q-Learning。
基于值函数估计的方法由于其目标并不是直接求得策略,而是通过值函数的学习来得到策略,即最终的策略是选择值函数大的动作,因此在较复杂的任务上会出现“策略退化”的现象,即虽然值函数估计较准确,但得到的策略却不好。
2)直接最大化累计奖赏的直接策略搜索方法 直接最大化累计奖赏的直接策略搜索方法则不依赖于对状态上累积奖赏的估计,而直接优化策略获得的累积奖赏。 这一类方法的代表有使用策略梯度方法优化参数化策略的REINFORCE[101]方法,以及使用演化算法等全局优化算法来搜索策略的NEAT+Q[102]方法等。