马尔科夫过程,马尔科夫奖励过程和马尔科夫决策过程

在这里插入图片描述
马尔科夫决策过程是强化学习中的一个基本框架,用来表示agent与环境的交互过程:agent观测得到环境的当前状态之后,采取动作,环境进入下一个状态,agent又得到下一个环境状态的信息,形成一个循环回路。
在理解马尔科夫决策过程之前,首先要理解马尔科夫、马尔科夫奖励过程。

1. 马尔科夫过程

满足马尔科夫性质的状态转换过程是马尔科夫过程;
什么是马尔科夫性质呢?
在环境状态的转换过程中,环境的下一个状态只取决于当前状态,和历史状态无关,即满足马尔科夫性质。
在这里插入图片描述

2. 马尔科夫奖励过程

(1)马尔科夫链可以通过转移图转移矩阵这两种形式表示:
转移图
在这里插入图片描述
转移矩阵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值