首先回忆上一次的内容:
对于给定的MDP,
使用Policy Evaluation进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))
使用Policy Iteration、Value Iteration进行control(没有特定的policy π,希望找到针对该MDP最优的policy π*,同时给出π*在每个状态的最优值Vπ*(s))
本次内容:
Model-Free Prediction。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。
希望在未给出MDP的情况下,进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))。
Model-Free Prediction有两大方法:Monte-Carlo Learning和Temporal-Difference Learning。
下次内容:
Model-Free Control。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。
希望在未给出MDP的情况下,进行Control(policy也没有给出,Optimise the value function of an unknown MDP )。
Monte-Carlo Learning:

在未知MDP的环境中,本文探讨了如何进行无模型预测(Model-Free Prediction),包括两种主要方法:蒙特卡洛学习(Monte-Carlo Learning)和时间差分学习(Temporal-Difference Learning)。蒙特卡洛学习从完整经验中直接学习,适用于离线学习,而时间差分学习则在不完整经验中学习,适合在线学习。两者都是模型自由的,不需要MDP的过渡和奖励知识。
最低0.47元/天 解锁文章
1826

被折叠的 条评论
为什么被折叠?



