强化学习基础总结(三)

强化学习基础:马尔可夫决策过程详解
本文是强化学习系列的第三部分,主要介绍马尔可夫决策过程(MDP)的基础知识,包括马尔可夫过程、马尔可夫奖励过程、返回值的概念,以及价值函数的计算。MDP是描述强化学习环境的关键模型,具有马尔可夫性质,即当前状态完全决定未来的状态。文章探讨了状态转换矩阵、奖励函数和折扣值γ的含义,并解释了为何要在总奖励上打折的原因。

强化学习基础总结(三)

@(Machine Learning)

覆盖以下几个主题:

  • Markov过程
  • Markov奖励过程
  • Markov决策过程
  • MDPs扩展

MDP简介

MDP是用于正式描述强化学习模型中的环境(environment)。

这里的环境是完全可观测的。

几乎所有的RL问题都可以被定义为MDP模型。

马尔可夫性

如前面文章所说,马尔可夫性就是:给定现在,将来与过去无关。

数学语言描述就是:

P[St+1|St]=P[St+1|S1,S2,...,St]

状态转换矩阵

状态转换矩阵元素是状态转换概率

此概率的数学表达式是:

Pss=P[St+1=s|St=s]

其中,s是状态s的下一个状态。

也即从s到s’的概率。

状态转换矩阵的数学表达式就是:

P
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值