dropout的隐式偏置(为什么要使用dropout)

研究揭示Dropout如何通过均等地分配权重防止共同适应,从而提升深度神经网络的泛化能力。实验证明,Dropout能高效收敛至全局最优解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现代的深度神经网络通常具有海量参数,甚至高于训练数据的大小。这就意味着,这些深度网络有着强烈的过拟合倾向。缓解这一倾向的技术有很多,包括L1、L2正则、及早停止、组归一化,以及dropout。在训练阶段,dropout随机丢弃隐藏神经元及其连接,以打破神经元间的共同适应。尽管dropout在深度神经网络的训练中取得了巨大的成功,关于dropout如何在深度学习中提供正则化机制,目前这方面的理论解释仍然很有限。
最近,约翰·霍普金斯大学的Poorya Mianjy、Raman Arora、Rene Vidal在ICML 2018提交的论文On the Implicit Bias of Dropout,重点研究了dropout引入的隐式偏置。

我这里直接跳过数学推到过程,只阐述重点内容。

基于权重系联的线性自动编码器

研究人员证明了,如果矩阵U是以上目标的全局最优解,那么U的所有列范数相等。这意味着,dropout倾向于给所有隐藏节点分配相等的权重,也就是说,dropout给整个网络加上了隐式的偏置,倾向于让隐藏节点都具有类似的影响,而不是让一小部分隐藏节点具有重要影响。
其中dropout rate 1-θ) ,λ = (1-θ)/θ。
这里写图片描述
上图可视化了参数λ的不同取值的效果。该网络为单隐藏层线性自动编码器,搭配一维输入、一维输出,隐藏层宽度为2。当λ = 0时,该问题转换为平方损失最小化问题。当λ > 0时,全局最优值向原点收缩,所有局部极小值均为全局最小值(证明过程见论文第4节)。当λ增大时,全局最优值进一步向原点收缩。

单隐藏层线性网络

研究人员进一步证明,前面提到的单隐藏层线性神经网络的目标等价于正则化的矩阵分解(regularized matrix factorization):

实验

研究人员试验了一些模型,以印证前面提到的理论结果。
这里写图片描述
上图可视化了dropout的收敛过程。和之前的可视化例子类似,模型为单隐藏层线性自动编码器,一维输入、一维输出,隐藏层宽度为2。输入取样自标准正态分布。绿点为初始迭代点,红点为全局最优点。从图中我们可以看到,在不同的λ取值下,dropout都能迅速收敛至全局最优点。

研究人员还在一个浅层线性网络上进行了试验。该网络的输入x ∈ ℝ80,取样自标准正态分布。网络输出y ∈ ℝ120,由y = Mx生成,其中M ∈ ℝ120x80均匀取样自右、左奇异子空间(指数谱衰减)。下图展示了不同参数值(λ ∈ {0.1, 0.5, 1})与不同隐藏层宽度(r ∈ {20, 80})的组合。蓝色曲线为dropout不同迭代次数下对应的目标值,红线为目标的最优值。总共运行了50次,取平均数。

上图最后一列为“重要性评分”的方差。重要性评分的计算方法为:‖uti‖‖vti‖,其中t表示时刻(迭代),i表示隐藏层节点。从上图我们看到,随着dropout的收敛,“重要性评分”的方差单调下降,最终降至0. 且λ较大时,下降较快。

结语

这项理论研究确认了dropout是一个均质地分配权重的过程,以阻止共同适应,提升泛化能力。同时也从理论上解释了dropout可以高效地收敛至全局最优解的原因。

研究人员使用的是单隐藏层的线性神经网络,因此,很自然地,下一步的探索方向为:

更深的线性神经网络

使用非线性激活的浅层神经网络,例如ReLU(ReLU可以加速训练)

原文:https://arxiv.org/abs/1806.09777

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值