《深入浅出强化学习原理入门》学习笔记(四)基于模型的动态规划方法
强化学习的直观目标是找到最优策略,目的是更好地完成任务。回报函数对应着具体的任务,所以强化学习所学到的最优策略是与具体的任务相对应的。从这个意义上来说,强化学习并不是万能的,它无法利用一个算法实现所有的任务。
从广义上讲,强化学习可以归结为序贯决策问题,即找到一个决策序列u0*-u1*-u2*-u3*-----uτ*使目标函数(累计回报的期望值 ∫R (τ)Pπ (τ) dτ)最优。
下图非常经典。
马尔科夫决策过程可以利用元组(S,A,P,r,γ)来描述,根据转移概率P是否已知,可以分为基于模型的动态规划方法和基于无模型的强化学习方法。本节主要学习基于模型的策略迭代算法和值迭代算法。
基于模型的强化学习可以利用动态规划的思想来解决。动态规划中的“动态”蕴含着序列和状态的变化;“规划”蕴含着优化,如线性优化,⼆次优化或者非线性优化。
利用动态规划可以解决的问题需要满足两个条件:⼀是整个优化问题可以分解为多个子优化问题;⼆是子优化问题的解可以被存储和重复利用。