强化学习5——贝尔曼方程（Bellman Equation）与动态规划（Dynamic Programming）

最新推荐文章于 2025-04-07 14:52:24 发布

路漫求索_CUMT

最新推荐文章于 2025-04-07 14:52:24 发布

阅读量3.9k

点赞数 1

分类专栏：机器学习——强化学习文章标签：强化学习动态规划贝尔曼方程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jinpeng_cumt/article/details/107778210

版权

机器学习——强化学习专栏收录该内容

12 篇文章

订阅专栏

本文深入探讨了动态规划的基本概念及其核心——贝尔曼方程。动态规划是一种通过拆分问题并递推解决的算法策略，而贝尔曼方程则是实现动态规划的关键，它描述了决策问题在特定时间的价值如何由初始选择的报酬和后续决策问题的价值决定。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基本概念

1.1 贝尔曼方程（Bellman Equation）

贝尔曼方程是动态规划（Dynamic Programming）这些数学最佳化方法能够达到最佳化的必要条件。此方程把“决策问题在特定时间怎么的值”以“来自初始选择的报酬比从初始选择衍生的决策问题的值”的形式表示。借此这个方式把动态最佳化问题变成简单的子问题，而这些子问题遵守从贝尔曼所提出来的“最佳化还原理”。

1.2 动态规划（Dynamic Programming）

动态规划算法是通过拆分问题，定义问题状态和状态之间的关系，使得问题能够以递推（或者说分治）的方式去解决。

动态规划算法的基本思想与分治法类似，也是将待求解的问题分解为若干个子问题（阶段），按顺序求解子阶段，前一子问题的解，为后一子问题的求解提供了有用的信息。在求解任一子问题时，列出各种可能的局部解，通过决策保留那些有可能达到最优的局部解，丢弃其他局部解。依次解决各子问题，最后一个子问题就是初始问题的解。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

路漫求索_CUMT 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。