马尔可夫决策和贝尔曼方程

马尔可夫决策和贝尔曼方程

一、什么是马尔可夫性、马尔可夫过程和马尔可夫决策过程

1) 马尔可夫性是指当前状态s包含了过去所有的历史信息,由当前决定未来;
2) 马尔可夫过程,就是具有马尔可夫性的随机过程(通常由链表示,也叫马尔科夫链),仅包含状态、状态到状态的转移概率;
3) 马尔可夫决策过程,是根据马尔可夫过程按照策略做出决策,由(S\A\R\P\gama)组成;

二、对于一个马尔可夫决策过程,R有限时,状态转移函数和回报函数

1) 状态转移函数

`在这里插入图片描述
PI(a|s)表示在当前状态s下,采取动作a的概率,也就是决策(概率),那么从状态s跳转到s’就为采取能够跳转到s‘的动作a的概率和采取动作a后能够从s成功跳转到s’的概率之积;当前状态s下有很多a可以行动(例如a1,a2),并都可以跳转至s’,只不过他们跳转的概率不同,可能a1对应的跳转概率大一些,那么求和就可以得到当前策略PI下,由当前状态s跳转到状态s’的概率;

2)回报函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值