reinforcement learning,增强学习:Model-Free Prediction

在未知MDP的环境中,本文探讨了如何进行无模型预测(Model-Free Prediction),包括两种主要方法:蒙特卡洛学习(Monte-Carlo Learning)和时间差分学习(Temporal-Difference Learning)。蒙特卡洛学习从完整经验中直接学习,适用于离线学习,而时间差分学习则在不完整经验中学习,适合在线学习。两者都是模型自由的,不需要MDP的过渡和奖励知识。



首先回忆上一次的内容:

对于给定的MDP,

使用Policy Evaluation进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))

使用Policy Iteration、Value Iteration进行control(没有特定的policy π,希望找到针对该MDP最优的policy π*,同时给出π*在每个状态的最优值Vπ*(s)


本次内容:

Model-Free Prediction。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。

希望在未给出MDP的情况下,进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))。

Model-Free Prediction有两大方法:Monte-Carlo LearningTemporal-Difference Learning。


下次内容:

Model-Free Control。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。

希望在未给出MDP的情况下,进行Control(policy也没有给出,Optimise the value function of an unknown MDP )。







Monte-Carlo Learning:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值