让强化学习逃离“乏味区域陷阱”，试着加点噪音吧！

最新推荐文章于 2025-03-06 14:34:55 发布

原创

最新推荐文章于 2025-03-06 14:34:55 发布 · 824 阅读

1 ·

CC 4.0 BY-SA版权

全文共5013字，预计学习时长10分钟
在这里插入图片描述
来源：南方公园
如果你去咨询一位投资顾问，肯定首先得问他是如何收费的——是根据投资的回报来收费吗？

“不是的。”他说，“我对你获得的回报预测越精确，你付给我的钱就越多。但我的预测只会在你选择的投资产品上得到验证。”

这听起来似乎有些可疑，你开始咨询其他选择这位投资顾问的人。结果发现，他向客户推荐的都是低回报率、低变化性的政府债券。他甚至告诉所有客户这是最高的平均收益！

于是，人们都相信这位顾问，纷纷买了政府债券。由于政府债券的特殊性，导致他对于回报的估计自然是十分准确的，误差很小。所以人们不得不向他支付高昂的咨询费用。

你是如何看待这位顾问的呢？

事实上，他就是一种“操作型顾问”。

在强化学习中，每个人都在使用这种顾问。

这种例子在强化学习中比比皆是。用于训练强化学习算法的环境出现方差差异时，常常会发生奇怪的事情：价值评估网络往往更偏好低方差区域而忽视奖励，使得它们成为操作型顾问。

那么该如何解决？先告诉你结论：Q-learning算法受困于“乏味区域陷阱”，而且因为低方差而无法逃出。奖励加噪有助于解决这种问题，但一定要谨慎添加。本文是基于论文“Adaptive Symmetric Reward Noising for Reinforcement Learning”进行研究的。

下面，让我们来分析这个问题吧！

操作型顾问
强化学习（RL）主要有两大类算法：Deep Q Networks (DQN) 算法和 Actor Critic算法。二者都使用了顾问函数或“价值评估”函数——一种深度神经网络算法 (DNN) ，用于评估一个状态和/或一个动作的价值。DQN使用Q-network，Actor Critic则使用Critic network。价值评估函数可以学习off-policy，这意味着它们可以通过观看其他人操作学习，即使那人并不十分在行——这大致上是一个不错的决定。它们能够从使用那些已经废止的、过去的策略所收集的经验中学到东西。

然而，这里有一个陷阱：顾问根据准确性来“获得酬劳”：就像用于优化网络的损失函数是基于网络的预测误差。而且网络的运行也是通过其选择的动作来检验的：策略将按照网络的最佳建议行事，这将成为未来唯一的经验来源。

现在，很多人都在抱怨强化学习并不管用，深化也没有什么帮助。确实是这样。强化学习算法的训练非常不稳固：它严重依赖于网络和参数的初始化，所以必须要不断重复同样的实验，每一次初始化的方式都不同。算法不断改进，然后又回归。这令人困惑，因为回归时，损失函数