12、强化学习问题的解决方法

xray4

于 2025-08-04 10:49:54 发布

阅读量48

点赞数

CC 4.0 BY-SA版权

分类专栏：精通Python强化学习文章标签：强化学习动态规划蒙特卡罗方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xray4/article/details/151042306

精通Python强化学习专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习问题的解决方法

1. 动态规划方法的比较与局限

在解决强化学习问题中，价值迭代和策略迭代是两种重要的算法。价值迭代能给出最优策略，且相较于策略迭代算法，计算量更小。价值迭代仅需对状态空间进行 6 次遍历，而策略迭代则需要 20 次遍历（17 次用于策略评估，3 次用于策略改进）才能得到相同的最优策略。

此外，还可以将策略改进步骤与截断的策略评估步骤相结合，在一些复杂的例子中，当策略改进后状态值发生显著变化时，这种方法的收敛速度比策略迭代和价值迭代算法都要快。

然而，动态规划方法在实际应用中存在两个重要的缺点：

1.1 维度灾难

策略迭代和价值迭代算法都需要多次遍历整个状态空间，直到找到最优策略。并且，我们会以表格形式存储每个状态的策略、状态值和动作值。但在现实问题中，可能的状态数量往往极其庞大，这就是所谓的维度灾难。随着维度的增加，变量（状态）的可能取值数量会呈指数级增长。

例如，在食品卡车问题中，除了跟踪肉饼的数量，若还需跟踪汉堡面包、西红柿和洋葱的数量，且每种物品的容量为 400，精确记录库存时，可能的状态数量将达到 6 × 401⁴，即超过 10¹¹ 个。对于这样一个简单的问题，要跟踪如此多的状态是不现实的。

1.2 对环境完整模型的需求

之前使用的方法依赖环境的转移概率来获得最优策略，但在实际中，这些概率往往难以计算，甚至无法枚举所有可能的转移，或者我们根本不知道这些概率。而获取样本轨迹则相对容易，可以从环境本身或其模拟中得到。

2. 应对维度灾难的方法

2.1 异步动态规划

异步动态规划是

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。