在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。
本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。
1. 基于模型的强化学习简介
基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态ss下采取动作aa,转到下一个状态s′s′的概率Pass′Pss′a。
而基于模型的强化学习则会尝试从环境的模型去学习,一般是下面两个相互独立的模型:一个是状态转化预测模型,输入当前状态ss和动作aa,预测下一个状态s′s′。另一个是奖励预测模型,输入当前状态ss和动作aa,预测环境的奖励rr。即模型可以描述为下面两个式子:
St+1∼P(St+1|St,At)St+1∼P(St+1|St,At)
Rt+1∼R(Rt+1|St,At)Rt+1∼R(Rt+1|St,At)
如果模型P,