
马尔科夫决策过程是强化学习中的一个基本框架,用来表示agent与环境的交互过程:agent观测得到环境的当前状态之后,采取动作,环境进入下一个状态,agent又得到下一个环境状态的信息,形成一个循环回路。
在理解马尔科夫决策过程之前,首先要理解马尔科夫、马尔科夫奖励过程。
1. 马尔科夫过程
满足马尔科夫性质的状态转换过程是马尔科夫过程;
什么是马尔科夫性质呢?
在环境状态的转换过程中,环境的下一个状态只取决于当前状态,和历史状态无关,即满足马尔科夫性质。

2. 马尔科夫奖励过程
(1)马尔科夫链可以通过转移图和转移矩阵这两种形式表示:
转移图

转移矩阵