全文共5013字,预计学习时长10分钟
来源:南方公园
如果你去咨询一位投资顾问,肯定首先得问他是如何收费的——是根据投资的回报来收费吗?
“不是的。”他说,“我对你获得的回报预测越精确,你付给我的钱就越多。但我的预测只会在你选择的投资产品上得到验证。”
这听起来似乎有些可疑,你开始咨询其他选择这位投资顾问的人。结果发现,他向客户推荐的都是低回报率、低变化性的政府债券。他甚至告诉所有客户这是最高的平均收益!
于是,人们都相信这位顾问,纷纷买了政府债券。由于政府债券的特殊性,导致他对于回报的估计自然是十分准确的,误差很小。所以人们不得不向他支付高昂的咨询费用。
你是如何看待这位顾问的呢?
事实上,他就是一种“操作型顾问”。
在强化学习中,每个人都在使用这种顾问。
这种例子在强化学习中比比皆是。用于训练强化学习算法的环境出现方差差异时,常常会发生奇怪的事情:价值评估网络往往更偏好低方差区域而忽视奖励,使得它们成为操作型顾问。
那么该如何解决?先告诉你结论:Q-learning算法受困于“乏味区域陷阱”,而且因为低方差而无法逃出。奖励加噪有助于解决这种问题,但一定要谨慎添加。本文是基于论文“Adaptive Symmetric Reward Noising for Reinforcement Learning”进行研究的。
下面,让我们来分析这个问题吧!
操作型顾问
强化学习(RL)主要有两大类算法:Deep Q Networks (DQN) 算法和 Actor Critic算法。二者都使用了顾问函数或“价值评估”函数——一种深度神经网络算法 (DNN) ,用于评估一个状态和/或一个动作的价值。DQN使用Q-network,Actor Critic则使用Critic network。价值评估函数可以学习off-policy,这意味着它们可以通过观看其他人操作学习,即使那人并不十分在行——这大致上是一个不错的决定。它们能够从使用那些已经废止的、过去的策略所收集的经验中学到东西。
然而,这里有一个陷阱:顾问根据准确性来“获得酬劳”:就像用于优化网络的损失函数是基于网络的预测误差。而且网络的运行也是通过其选择的动作来检验的:策略将按照网络的最佳建议行事,这将成为未来唯一的经验来源。
现在,很多人都在抱怨强化学习并不管用,深化也没有什么帮助。确实是这样。强化学习算法的训练非常不稳固:它严重依赖于网络和参数的初始化,所以必须要不断重复同样的实验,每一次初始化的方式都不同。算法不断改进,然后又回归。这令人困惑,因为回归时,损失函数