【深度强化学习笔记】--第二节:马尔可夫决策过程

本文深入解析了马尔可夫决策过程(MDP)的基本构造,包括状态、动作、状态转移概率、奖励函数及策略函数,强调了其马尔可夫性质,并介绍了折扣因子如何影响决策策略。同时,给出了MDP的五元组形式(S,A,P(a|s),R(s|a),γ)。

1.马尔可夫性质

马尔可夫决策过程(Markov Decision Process, MDP)独有性质即当前时刻的状态仅与前一时刻的状态和动作有关,与其他时刻的状态和动作条件独立。
在这里插入图片描述
等式右侧的条件概率被称为MDP的状态间的转移概率 。马尔可夫性质是所有马尔可夫模型共有的性质,但相比于马尔可夫链,MDP的转移概率加入了智能体的动作,其马尔可夫性质也与动作有关

2.MDP基本组成部分

状态集合
在这里插入图片描述
动作集合
在这里插入图片描述
状态转移概率函数
在这里插入图片描述
奖励函数
在这里插入图片描述
策略函数
在这里插入图片描述
●折扣因子:γ∈[0,1]
◆γ=0:贪婪法,价值只由当前延时奖励决定;
◆γ=1:所有后续状态奖励和当前状态奖励同等重要;
◆γ∈(0,1):当前延时奖励的权重比后续奖励的权重大。
马尔科夫决策过程可以表示成一个五元组

MDP(S,A,P(a|s),R(s|a),γ)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值