马尔科夫决策过程(MDP)学习笔记

1. 概述
MDP由一个代理agent和一个环境 E ,一组可能的状态 S ,一组可用的行动 A ,和奖励函数 r: S×A→r 构成。

在离散时间的步骤中,代理agent不断地从与环境的交互中 学习并作出决策。在每个时间步 t ,代理观察环境的当前状态,记作 st∈S ,并根据策略π选择执行一个动作 at∈A 。之后,代理从环境E中收到达到当前状态st的一个标量奖励 rt = r(st,at)∈R⊆R ,并根据环境的转移概率 p (st+1 |st, at) 找到自己的下一个状态 st+1∈S 。

2. MDP 目标
因此,环境E的动态性由agent在当前状态 st 下对所采取行动at的 响应的转移概率 p(s’|s,a) 决定,agent的目标是找到最大化其所获得的长期期望折扣报酬的最优策略,即
在这里插入图片描述
3. 策略
策略是一个概率分布,体现了在当前状态下 st 采取行动 at 的概率:
在这里插入图片描述
4. 值函数 V(s)
值函数 Value Function (或者可以称为状态值函数 State-Value Function),是根据策略π的指导,在当前状态 st 下,之后能够预期得到的折扣收益:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值