介绍
越看到后面,我越发觉得RL更像是一种思想,Policy,State都需要自己进行定义,计算value function的过程也有公式,但是不如深度学习那么直接。
之前的章节是说到如何从经验中得到policy和value function,这一节是如何从经验中获取模型。然后使用模型加经验来更新policy和value function。model-based RL没有对environment进行建模,直接通过经验得到value function或者是policy。Model-based method会对环境进行建模。reward和state就可以通过这个模型推断出来。
基于模型的RL
基于模型的RL可以通过监督学习学习模型,然后对模型的未知可以进行推测。但是缺点在于模型和value function都变成了近似计算,这很可能会增加error。
模型M就是MDP
整体框架
experience有两个来源:真实的experience和simulated experience。Model-based RL是先从real experience学到模型,再从simulated experience中获得value function(policy)
然后Dyna的value function(policy)是从simulated experience中获得。
Dyna-Q Learning 算法:
基于仿真的搜索
根据模型仿真episodes,然后再使用Model-Free RL去simulate episodes。
TD search,每次通过Sarsa来更新delta Q:
Exploration and Exploitation
exploitation: 找到针对当前信息最好的决策
exploration: 获取更多信息,去探索有可能的新的决策