让强化学习逃离“乏味区域陷阱”,试着加点噪音吧!

全文共5013字,预计学习时长10分钟
在这里插入图片描述
来源:南方公园
如果你去咨询一位投资顾问,肯定首先得问他是如何收费的——是根据投资的回报来收费吗?

“不是的。”他说,“我对你获得的回报预测越精确,你付给我的钱就越多。但我的预测只会在你选择的投资产品上得到验证。”

这听起来似乎有些可疑,你开始咨询其他选择这位投资顾问的人。结果发现,他向客户推荐的都是低回报率、低变化性的政府债券。他甚至告诉所有客户这是最高的平均收益!

于是,人们都相信这位顾问,纷纷买了政府债券。由于政府债券的特殊性,导致他对于回报的估计自然是十分准确的,误差很小。所以人们不得不向他支付高昂的咨询费用。

你是如何看待这位顾问的呢?

事实上,他就是一种“操作型顾问”。

在强化学习中,每个人都在使用这种顾问。

这种例子在强化学习中比比皆是。用于训练强化学习算法的环境出现方差差异时,常常会发生奇怪的事情:价值评估网络往往更偏好低方差区域而忽视奖励,使得它们成为操作型顾问。

那么该如何解决?先告诉你结论:Q-learning算法受困于“乏味区域陷阱”,而且因为低方差而无法逃出。奖励加噪有助于解决这种问题,但一定要谨慎添加。本文是基于论文“Adaptive Symmetric Reward Noising for Reinforcement Learning”进行研究的。

下面,让我们来分析这个问题吧!

操作型顾问
强化学习(RL)主要有两大类算法:Deep Q Networks (DQN) 算法和 Actor Critic算法。二者都使用了顾问函数或“价值评估”函数——一种深度神经网络算法 (DNN) ,用于评估一个状态和/或一个动作的价值。DQN使用Q-network,Actor Critic则使用Critic network。价值评估函数可以学习off-policy,这意味着它们可以通过观看其他人操作学习,即使那人并不十分在行——这大致上是一个不错的决定。它们能够从使用那些已经废止的、过去的策略所收集的经验中学到东西。

然而,这里有一个陷阱:顾问根据准确性来“获得酬劳”:就像用于优化网络的损失函数是基于网络的预测误差。而且网络的运行也是通过其选择的动作来检验的:策略将按照网络的最佳建议行事,这将成为未来唯一的经验来源。

现在,很多人都在抱怨强化学习并不管用,深化也没有什么帮助。确实是这样。强化学习算法的训练非常不稳固:它严重依赖于网络和参数的初始化,所以必须要不断重复同样的实验,每一次初始化的方式都不同。算法不断改进,然后又回归。这令人困惑,因为回归时,损失函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值