目录
问题3:first visit MC与every visit MC有什么区别?
问题4:first visit MC、every visit MC 与incremental MC有什么区别吗?
嘚嘚嘚...唠叨小主驾到,哈哈,今天我们来复习一下,值函数迭代和策略函数迭代。首先,来看一下,三道题:
这三道题是斯坦福大学课件中的题目,我们一起来看一下官方给的答案:
官方解释的很清楚啦,唠叨小主就不过多的解释了。还有一个重点:值函数迭代和策略函数迭代的区别!!下面这张图取自周博磊老师的课件:
今天的任务是MC算法和TD算法的讲解,接下来,步入主题!
问题1:什么是model-free?
答:model-free,称为无模型学习。无模型学习不需要关于环境的信息,不需要搭建假的环境模型,所有经验都是通过与真实环境交互得到,就是通过和环境交互获得R值和P值。这点区别于model-based。
model-based 和 model-free 的区别在于对于环境有无已知模型。基于模型的方法效率更高,因为智能体可以利用环境中的模型信息