马尔可夫决策过程
马尔科夫决策过程
马尔可夫决策过程是一个离散时间的随机过程,有六元组{
S,A,D,P,r,J}组成,六元组中:
1. S有限维的环境状态空间
2.
3.
4. r(s,a,s′):S×A×S′→R为学习系统从状态s执行动作
5. J是决策优化目标函数
马尔可夫决策过程的特点是目前状态
P(s=st,a=at,s′=st+1)=pr(s
马尔可夫决策过程是一个离散时间的随机过程,有六元组{
S,A,D,P,r,J}组成,六元组中:
1. S有限维的环境状态空间
2.
3.
4. r(s,a,s′):S×A×S′→R为学习系统从状态s执行动作
5. J是决策优化目标函数
马尔可夫决策过程的特点是目前状态
P(s=st,a=at,s′=st+1)=pr(s