本文主要针对强化学习中所需求的马尔科夫决策过程进行详解,讨论马尔科夫性到底是什么,为什么强化学习需要环境有马尔科夫性,马尔科夫奖励过程和马尔可夫决策过程是怎么做的,一共四个方面给具有一定基础知识的读者介绍强化学习。
主要参考李宏毅的蘑菇书,在线阅读链接。
感谢王琦等人编写的网站。
王琦,杨毅远,江季,Easy RL:强化学习教程,人民邮电出版社,https://github.com/datawhalechina/easy-rl, 2022.
上文介绍了强化学习是什么,复习一下,强化学习主要使用智能体与环境进行交互进而学习。
智能体与环境交互的过程为:智能体得到环境的状态后,它会采取动作,并把这个采取的动作返还给环境。
环境对智能体反馈的过程为:环境得到智能体的动作后,它会进入下一个状态,把下一个状态传给智能体。
马尔科夫性
强化学习过程可以使用马尔科夫决策过程来表示,所以马尔可夫决策过程是强化学习的基本框架。
但是至此我们还是不知道马尔科夫性是什么呢,我们只知道强化学习需要这个,因此笔者寻找了一本统计书籍上关于马尔科夫性的定义:
笔者认为马尔科夫性可以通俗的理解为:当前状态和之前没有关系(相互独立),即当前这个状态只是从上一个状态一定概率得到的,与其他的一点关系都没有,这被称为马尔科夫性。
如果某一个过程满足马尔可夫性质,那么未来的转移与过去的是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
马尔可夫过程(Markov process,MP)以及马尔可夫奖励过程(Markov reward process,MRP)都具有马尔科夫性,两者都对强化学习很有用。通过与这两种过程的比较,可以更容易理解马尔可夫决策过程。
马尔可夫过程是一组具有马尔可夫性质的随机变量序列 s 1 , ⋯ , s t s_1,\cdots,s_t s1,⋯,st,其中下一个时刻的状态 s t + 1 s_{t+1} st+1只取决于当前状态 s t s_t st。我们设状态的历史为 h t = { s 1 , s 2 , s 3 , … , s t } h_t= \left\{s_1,s_2,s_3,\ldots,s_t\right\} ht={ s1,s2,s3,…,s