提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
学习记录
一、马尔可夫
Agent对环境的交互
我们说一个状态满足于马尔科夫,意思是一个状态的下一个状态取决于当前状态,而跟当前状态之前的状态都没关系,等于之前所有的状态,未来的转移对过去是独立的,只取决于现在。
二、解释
1.字符
Π:policy 策略
V:价值函数,该状态下得到的期望
A:动作
r:折扣
R:奖励
S:状态
P:概率
Q:在某个状态下,该行为可能得到的期望
E:期望
2.MRP
马尔可夫奖励过程
解法1:
蒙特卡洛采样的方法:随机采样很多轨迹,并把return都计算出来,取平均得到的价值
解法2:
动态规划:
MRP价值函数满足贝尔曼等式(Bellman equation)
贝尔曼等式定义了当前状态和未来状态之间的相关
动态规划则是不断的进行这个等式,直至数字收敛。
3.MDP
马尔可夫决策过程
相比MRP,多了动作a。
象征着当前状态的q函数与未来状态的q函数的关联
象征着当前状态价值与未来状态价值的关联
决策过程的目的是寻找到最佳策略来获得最大的价值函数
方法1:策略迭代:初始化价值和策略,迭代出收敛的价值,改变策略至当前最佳,再迭代至收敛,重复操作至无变化。
方法2:价值迭代:初始化价值和策略。改变策略,迭代价值一次,再改变策列,重复操作至无变化。