强化学习（三）用动态规划（DP）求解

最新推荐文章于 2024-07-16 16:03:48 发布

文宇肃然

最新推荐文章于 2024-07-16 16:03:48 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：手把手教你ML机器学习算法源码全解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/97892712

手把手教你ML机器学习算法源码全解析专栏收录该内容

233 篇文章 ¥49.90 ¥99.00

订阅专栏

本文深入探讨动态规划（DP）在强化学习中的应用，通过策略评估和策略迭代解决预测与控制问题。阐述了DP与强化学习的联系，介绍了策略评估的贝尔曼方程以及策略迭代和价值迭代的优化方法，最后讨论了异步动态规划算法及其优缺点。

　　在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。

　　　　动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲。

1. 动态规划和强化学习问题的联系

　　　　对于动态规划，相信大家都很熟悉，很多使用算法的地方都会用到。就算是机器学习相关的算法，使用动态规划的也很多，比如之前讲到的隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率，隐马尔科夫模型HMM（四）维特比算法解码隐藏状态序列，都是动态规划的典型例子。

　　　　动态规划的关键点有两个：一是问题的最优解可以由若干小问题

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。