【强化学习理论】动态规划算法

原创于 2023-05-10 00:00:17 发布 · 210 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #动态规划

本文介绍了动态规划算法在强化学习中的两种主要形式——策略迭代和价值迭代。这两种方法都需要完整的MDP建模和离散、有限的状态及动作空间。策略迭代包括策略评估和策略提升，而价值迭代则通过贝尔曼最优方程更快地找到最优策略，但需更多轮次。两者在计算资源和时间消耗上有不同，适用于不同的问题场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【强化学习理论】动态规划算法

以下是自己的一些总结，但不是官方的论断。

动态规划算法的两种代表

①策略迭代；

②价值迭代。

动态规划算法的应用条件

①有完整的MDP建模，知道明确的奖励函数 $r$ 和状态转移函数 $p$ 。如果不知道的话，只能让智能体跟环境做交互得到序列，去模拟。

②状态空间和动作空间离散、有限。

两种动态规划算法的区别

①策略迭代包含两个部分：策略评估（多次）+策略提升（一次），两个部分作为一个组合，循环多次，直到策略 $\pi_{\tau-1} = \pi_{\tau}$ 。

策略评估可能会进行多轮，这个过程是根据当前策略计算出每个状态的最优价值，得到 $V_{\pi}(s)$ 。

然后是策略提升（经过多轮策略评估后做一次策略提升），策略提升是通过在每个状态计算 $q (s, a)$ ，然后指定能让 $q (s, a)$ 最大的那个动作作为当前 $s$ 的动作。这个指定的过程就是策略提升的过程。

利用的原理：贝尔曼期望方程、状态价值函数与动作价值函数的关系、策略提升定理

优点：过程容易理解；

缺点：因为要迭代多轮才去提升，然后又迭代多轮再提升……再碰上状态空间和动作空间都比较大的话，就很消耗计算资源和时间；需要事先有一个初始 $\pi$

②价值迭代也包含两个部分：策略评估（一次）+策略提升（一次），两个部分作为一个组合，循环多次，直到策略 $\pi_{\tau-1} = \pi_{\tau}$ 。

在每次计算某个状态的价值 $v (s)$ 时，会计算这个状态下所有的 $q (s, a)$ ，然后直接指定最大的那个 $q (s, a)$ 作为更新后的 $v (s)$ 。

利用的原理：贝尔曼最优方程

优点：迭代轮数比策略迭代少；事先不需要知道初始 $\pi$ （因为计算过程中不需要用到当前状态转移到某个动作的概率）

缺点：最后才能根据价值函数导出 $\pi$ 。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。