马尔科夫决策过程,强化学习,深度强化学习,Q-learning 入门 一看就懂
**马尔科夫性:**即无后效性,下一个状态只和当前状态有关而与之前的状态无关。
马尔科夫过程:马尔科夫过程是随机过程的一种。可以理解为,在满足马尔科夫性质的条件下,状态与状态之间的转换过程即为马尔科夫过程。这个过程只有状态和状态转移概率,是不涉及动作的。
马尔科夫决策过程:考虑了动作策略的马尔科夫过程,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。
强化学习:是依靠环境给予的奖惩来学习的,因此对应的马尔科夫决策过程还包括奖惩值
这几者的区别详见:https://zhuanlan.zhihu.c
原创
2020-09-04 17:13:06 ·
1554 阅读 ·
0 评论