24、强化学习：从原理到应用的深度剖析

prometheus9mon

于 2025-08-14 12:06:43 发布

阅读量37

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习重塑工业智能文章标签：强化学习策略优化马尔可夫决策过程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/prometheus9mon/article/details/151054237

强化学习重塑工业智能专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：从原理到应用的深度剖析

1. 强化学习基础与策略优化

在强化学习（RL）中，目标是找到一种策略，使从采样状态、动作和奖励中获得的预期回报最大化。不过，这种对回报最大化的追求可能会忽视其带来的后果。研究表明，对策略更新进行限制或约束能够使学习过程更稳定，得到更完善的策略。

传统方法中，如第6章所提到的，通过限制更新幅度来避免策略发生剧烈变化。但这样可能会导致策略变得脆弱且过于稀疏，即除了最优轨迹外，大多数动作的价值为零。为了解决这个问题，引入了基于熵的算法，该算法对马尔可夫决策过程（MDP）回报的原始定义进行修改，对回报进行重新缩放或正则化。

此外，有人提出其他熵的定义可能会有更好的效果，因为香农熵的稀疏性不足。虽然可以通过调整温度参数来生成适合特定问题的策略，但很有可能其他熵度量方法在特定问题上表现更优。从理论上来说，甚至可以使用任意函数，不过该函数需要遵循一些理论规则，如严格为正、可微分、凹函数且在零到一的范围之外为零等。

在实际生产中，为价值函数添加探索奖励是有益的，这样可以使智能体对变化具有更强的鲁棒性，但要注意避免对环境过度拟合。

2. 策略梯度与软Q学习的等价性

简单来说，Q学习和策略梯度方法都试图强化能带来更好奖励的行为。Q学习增加动作的价值，而策略梯度增加选择动作的概率。当加入基于熵的策略梯度时，动作的概率会与动作价值的某个函数成正比，即策略与Q值的某个函数成正比。因此，策略梯度方法和Q学习解决的是同一个问题。

从实证角度来看，对Q学习和策略梯度方法的比较表明，它们的性能相似。许多差异可以通过考虑样本效率或并行性等外部改进来解释。甚至有研究将Q学习和基于策略梯度的算法进行归

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。