从本趴开始将讲述免模型控制,在没人告诉我们环境信息的情况下,agent如何找到行动的最优方案。第一种方法就是蒙特拉罗学习,它是在不知道环境模型的情况下,由信息遍历整个状态链直到终端状态之后通过观察其回报值来评估价值,完成无模型预测,得到的是价值函数。
一、Condition
蒙特拉罗学习方法只适用于片段化的MDP过程,因为它需要到达终止状态才能回溯得到价值函数的评估值。
二、Goal
蒙特拉罗学习的目的是通过经验片段(S1,A1,R2,S2,……)学习得到价值函数Vπ。这里再提一下回报Gt,是从一整个片段得到每个状态的带有折扣因子的反馈和。
返回的价值函数是期望的回报:, 而蒙特卡罗是用经验均值代替期望回报来进行策略评估的。
在明确了适用条件和算法目标之后,来看看蒙特卡罗学习的两种方法。
三、method
有两种方法可以在蒙特卡罗学习中用来评估,“初访蒙特卡罗策略评估(First-Visit Monte Carlo Policy Evaluation)”和“每访蒙特卡罗策略评估(Every-Visit Monte Carlo Policy Evaluation)”,两者都可以运行来解决问题,之间有一些细微的差别。
1. 初访蒙特卡罗策略评估(First-Visit Monte Carlo Policy Evaluation)
在一个片段中,某个状态不一定只出现一次,事实上很有可能多次重复该状态并进行不同的状态转移,初访蒙特卡罗就是只记录第一次到达该状态时的情况,并给计数器加1,计数器是为了求经验均值用的。
The first time-step t that state s is visited in an episode
,
,
,
根据大数定律,如果一个片段的样本数量足够多,并遵循现有策略运行这些足够多的样本得到无数条轨迹,那么根据轨迹上得到反馈的平均值将会收敛到该策略下的价值函数的真值。
2. 每访蒙特卡罗策略评估(Every-Visit Monte Carlo Policy Evaluation)
与初访不同的是,在这里我们又回到这样一个片段,并且在每次达到状态s时增加计数器并记录其状态反馈。也就是说我从状态s转了一圈又回到原点时,不仅需要考虑原来的回报还要考虑这个状态转了一圈后的二次回报。每当访问状态s,计数器就加1。更新公式如下:
The&n

最低0.47元/天 解锁文章
1388

被折叠的 条评论
为什么被折叠?



