一、马尔可夫决策过程
从强化学习的基本原理可以看出他与监督学习与非监督学习的一些差别,在监督、非监督学习中数据是静态的,不需要与环境进行交互,强化学习的环境是动态的,不断交互的过程,所需要的数据也是通过与环境不断交互得到的。所以,与监督学习相比,强化学习涉及的环境更多,比如动作,环境,状态转移概率和回报函数等。
强化学习的经典框架就是马尔可夫决策过程简称MDP,下面介绍几个马尔可夫过程需要用到的经典性质:
1、马尔可夫性(马氏性)
马氏性是指系统的下一状态St+1St+1仅与当前状态StSt有关,而与以前的状态无关。
在一般的应用场合,我们都可以假设系统满足这个性质,举个例子,比如我们考虑一个atari上的游戏的时候,当游戏到达某一状态(画面)我们就可以完全不再考虑之前游戏的信息,比如当游戏到达第四关的时候,游戏前三关的信息就没必要再考虑。我们假设模型具有马氏性可以大大压缩信息量,使强化学习能够在算力有限的情况下得到较为准确的结果。
2、马尔可夫过程(马氏过程)
马尔可夫过程是一个二元组(S,P)(S,P),且满足:SS是有限状态集合,是状态转移概率。状态转移矩阵为:[Pij][Pij]
其中PijPij表示从状态i转移到状态j的概率。给定初始状态就可以确定一个完整的马氏过程。
3、马尔可夫决策过程(马氏决策过程)
一个完整的马尔可夫决策过程可以由一个五元组描述(S,A,P,R,γ)(S,A,P,R,γ)
其中:
S为有限状态集合
A为动作集合
P为状态转移概率
R为回报函数
γγ为折扣因子,用来计算累积回报
马尔可夫决策过程的转移概率是如下定义的
其表示的含义是在状态ss下执行动作a得到状态的概率,这个概率由环境所决定。
强化学习的目标很明确,给定一个马尔可夫决策过程,寻找最优策略。所谓策略是一个状态到动作的映射,策略常用符号ππ表示,它是指给定状态ss时,动作集上的一个分布,即
所以,即使给定策略ππ,且当前状态S已知,接下来采取什么动作也不是固定的,而是一个满足上述分布的随机变量。
4、累计回报
当给定一个策略ππ时,我们就可以计算累计回报了,首先定义累计回报:
注意到每次得到的回报是一个随机变量,所以累计回报也是一个随机变量。既然是一个随机变量,为了评价一个策略的好坏,一个很自然的想法就是用期望来作为评价的指标。
常用的两种值函数如下:
(1)状态值函数
当智能体采取策略ππ时,累计回报服从一个分布,累计回报在状态s处的期望值定义为状态-值函数:
与之对应的,状态-动作值函数:
(2)状态-动作值函数
状态-行为值函数为:
可以把状态-动作值函数看作是在ss状态,必须采取行动之后得到的总的回报的期望,这两者唯一的区别就是状态-动作值函数是在SS状态必须采取行动,之后再贯彻ππ策略
状态值函数与状态-动作值函数的贝尔曼方程
同样可以得到状态-行为值函数的贝尔曼方程
最优状态值函数
V∗(s)V∗(s)为所有策略中值最大的值函数,即V∗(s)=maxπvπ(s)V∗(s)=maxπvπ(s),最优状态-行为值函数q∗(s,a)q∗(s,a)为在所有策略中最大的状态-行为值函数,即
于是我们很容易得到最优值函数和最优状态-行为值函数的贝尔曼方程