【强化学习理论】动态规划算法
以下是自己的一些总结,但不是官方的论断。
动态规划算法的两种代表
①策略迭代;
②价值迭代。
动态规划算法的应用条件
①有完整的MDP建模,知道明确的奖励函数rrr和状态转移函数ppp。如果不知道的话,只能让智能体跟环境做交互得到序列,去模拟。
②状态空间和动作空间离散、有限。
两种动态规划算法的区别
①策略迭代包含两个部分:策略评估(多次)+策略提升(一次),两个部分作为一个组合,循环多次,直到策略πτ−1=πτ\pi_{\tau-1} = \pi_{\tau}πτ−1=πτ。
策略评估可能会进行多轮,这个过程是根据当前策略计算出每个状态的最优价值,得到Vπ(s)V_{\pi}(s)Vπ(s)。
然后是策略提升(经过多轮策略评估后做一次策略提升),策略提升是通过在每个状态计算q(s,a)q(s,a)q(s,a),然后指定能让q(s,a)q(s,a)q(s,a)最大的那个动作作为当前sss的动作。这个指定的过程就是策略提升的过程。
利用的原理:贝尔曼期望方程、状态价值函数与动作价值函数的关系、策略提升定理
优点:过程容易理解;
缺点:因为要迭代多轮才去提升,然后又迭代多轮再提升……再碰上状态空间和动作空间都比较大的话,就很消耗计算资源和时间;需要事先有一个初始π\piπ
②价值迭代也包含两个部分:策略评估(一次)+策略提升(一次),两个部分作为一个组合,循环多次,直到策略πτ−1=πτ\pi_{\tau-1} = \pi_{\tau}πτ−1=πτ。
在每次计算某个状态的价值v(s)v(s)v(s)时,会计算这个状态下所有的q(s,a)q(s,a)q(s,a),然后直接指定最大的那个q(s,a)q(s,a)q(s,a)作为更新后的v(s)v(s)v(s)。
利用的原理:贝尔曼最优方程
优点:迭代轮数比策略迭代少;事先不需要知道初始π\piπ(因为计算过程中不需要用到当前状态转移到某个动作的概率)
缺点:最后才能根据价值函数导出π\piπ。
本文介绍了动态规划算法在强化学习中的两种主要形式——策略迭代和价值迭代。这两种方法都需要完整的MDP建模和离散、有限的状态及动作空间。策略迭代包括策略评估和策略提升,而价值迭代则通过贝尔曼最优方程更快地找到最优策略,但需更多轮次。两者在计算资源和时间消耗上有不同,适用于不同的问题场景。
1232

被折叠的 条评论
为什么被折叠?



