【强化学习】 马尔科夫性 李宏毅 蘑菇书 第二章

本文主要针对强化学习中所需求的马尔科夫决策过程进行详解,讨论马尔科夫性到底是什么为什么强化学习需要环境有马尔科夫性马尔科夫奖励过程马尔可夫决策过程是怎么做的,一共四个方面给具有一定基础知识的读者介绍强化学习。

主要参考李宏毅的蘑菇书,在线阅读链接
感谢王琦等人编写的网站。
王琦,杨毅远,江季,Easy RL:强化学习教程,人民邮电出版社,https://github.com/datawhalechina/easy-rl, 2022.

上文介绍了强化学习是什么,复习一下,强化学习主要使用智能体与环境进行交互进而学习。
智能体与环境交互的过程为:智能体得到环境的状态后,它会采取动作,并把这个采取的动作返还给环境。
环境对智能体反馈的过程为:环境得到智能体的动作后,它会进入下一个状态,把下一个状态传给智能体。

马尔科夫性

强化学习过程可以使用马尔科夫决策过程来表示,所以马尔可夫决策过程是强化学习的基本框架

智能体和环境的交互
但是至此我们还是不知道马尔科夫性是什么呢,我们只知道强化学习需要这个,因此笔者寻找了一本统计书籍上关于马尔科夫性的定义:
马尔科夫性
笔者认为马尔科夫性可以通俗的理解为:当前状态和之前没有关系(相互独立),即当前这个状态只是从上一个状态一定概率得到的,与其他的一点关系都没有,这被称为马尔科夫性。

如果某一个过程满足马尔可夫性质,那么未来的转移与过去的是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
马尔可夫过程(Markov process,MP)以及马尔可夫奖励过程(Markov reward process,MRP)都具有马尔科夫性,两者都对强化学习很有用。通过与这两种过程的比较,可以更容易理解马尔可夫决策过程。

马尔可夫过程是一组具有马尔可夫性质的随机变量序列 s 1 , ⋯   , s t s_1,\cdots,s_t s1,,st,其中下一个时刻的状态 s t + 1 s_{t+1} st+1只取决于当前状态 s t s_t st。我们设状态的历史为 h t = { s 1 , s 2 , s 3 , … , s t } h_t= \left\{s_1,s_2,s_3,\ldots,s_t\right\} ht={ s1,s2,s3,,s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值