《Understanding Dropout》
摘要:
为了避免训练期间的特征提取器(神经元)间的“互适应”,使用Dropout(看作是随机神经元你无效化)是个新方法。作者提出通过“arbitrary probability values”(引入随机的values),对于深度学习网络,好处可以看作是三个递归方程,包括对归一化加权几何平均的近似。
introduction
简单概述了Hinton提出的dropout的优点:
1,免训练期间的特征提取器(神经元)间的“互适应”,从而防止过拟合。
2,一些情况下dropout比一些ensemble要好,推测在集成网络上适用性很强
然而还有很多关于dropout是不知道的,比如平均化,规则化,收敛的特性。
归纳:
我们可以预期三个学习阶段:(1)在学习的开始,当权重通常是小的和随机的,每个单元的总输入是接近0的,一致性高。
(2)随着学习的进行,活动趋向于0-1之间,一致性降低,即对于给定的输入,各单元在子网络间的方差增大。(3)当随机梯度学习过程收敛时,一致性趋于稳定的value。
本文深入探讨了Hinton提出的Dropout技术,一种用于避免神经网络过拟合的有效方法。Dropout通过随机使部分神经元失活,阻止特征提取器间的过度依赖,增强模型泛化能力。文章还讨论了Dropout的理论基础,包括其对归一化加权几何平均的近似,以及在网络训练不同阶段的一致性变化。
1232

被折叠的 条评论
为什么被折叠?



