在强化学习(一)模型基础中,讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。
1. 马尔科夫性(Markov property)
当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
用式子来表示:
P[St+1∣St]=P[St+1∣S1,⋯ ,St]P[S_{t+1}|S_t]=P[S_{t+1}|S_1,\cdots,S_t]P[
订阅专栏 解锁全文
2120

被折叠的 条评论
为什么被折叠?



