强化学习基础总结(三)
@(Machine Learning)
覆盖以下几个主题:
- Markov过程
- Markov奖励过程
- Markov决策过程
- MDPs扩展
MDP简介
MDP是用于正式描述强化学习模型中的环境(environment)。
这里的环境是完全可观测的。
几乎所有的RL问题都可以被定义为MDP模型。
马尔可夫性
如前面文章所说,马尔可夫性就是:给定现在,将来与过去无关。
数学语言描述就是:
P[St+1|St]=P[St+1|S1,S2,...,St]
状态转换矩阵
状态转换矩阵元素是状态转换概率。
此概率的数学表达式是:
Pss′=P[St+1=s′|St=s]
其中,s′是状态s的下一个状态。
也即从s到s’的概率。
状态转换矩阵的数学表达式就是: