这次的任务我个人认为还是比较多的,很多涉及数学公式的内容,推公式就比较难。
1.马尔可夫决策过程(MDP)
这里先介绍强化学习中agent与environment的交互过程,如下图:
agent在得到环境的状态过后,它会采取行为,它会把这个采取的行为返还给环境。环境在得到agent的行为过后,它会进入下一个状态,把下一个状态传回agent。这个交互的过程是可以通过MDP来表示的。在在马尔可夫决策过程中,它的环境是 fully observable ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。
介绍马尔可夫奖励过程。
马尔可夫奖励过程(Markov Reward Process, MRP)
是马尔可夫链再加上了一个奖励函数。在 MRP 中,转移矩阵跟它的这个状态都是跟马尔可夫链一样的,多了一个奖励函数(reward function)。奖励函数是一个期望,就是说当你到达某一个状态的时候,可以获得多大的奖励,然后这里另外定义了一个 discount factor γ
Bellman Equation(贝尔曼等式) 定义了当前状态跟未来状态之间的这个关