强化学习1-马尔可夫

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

学习记录


一、马尔可夫

Agent对环境的交互

我们说一个状态满足于马尔科夫,意思是一个状态的下一个状态取决于当前状态,而跟当前状态之前的状态都没关系,等于之前所有的状态,未来的转移对过去是独立的,只取决于现在。

二、解释

1.字符

Π:policy 策略
V:价值函数,该状态下得到的期望
A:动作
r:折扣
R:奖励
S:状态
P:概率
Q:在某个状态下,该行为可能得到的期望
E:期望

2.MRP

马尔可夫奖励过程
解法1:
蒙特卡洛采样的方法:随机采样很多轨迹,并把return都计算出来,取平均得到的价值
解法2:
动态规划:
MRP价值函数满足贝尔曼等式(Bellman equation)
在这里插入图片描述
贝尔曼等式定义了当前状态和未来状态之间的相关
动态规划则是不断的进行这个等式,直至数字收敛。

3.MDP

马尔可夫决策过程
相比MRP,多了动作a。
在这里插入图片描述
象征着当前状态的q函数与未来状态的q函数的关联
在这里插入图片描述
象征着当前状态价值与未来状态价值的关联

决策过程的目的是寻找到最佳策略来获得最大的价值函数

方法1:策略迭代:初始化价值和策略,迭代出收敛的价值,改变策略至当前最佳,再迭代至收敛,重复操作至无变化。

方法2:价值迭代:初始化价值和策略。改变策略,迭代价值一次,再改变策列,重复操作至无变化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值