[解读] Rethinking the Usage of Batch Normalization and Dropout in the Training of Deep Neural Networks

最新推荐文章于 2022-07-26 17:10:44 发布

天在那边

最新推荐文章于 2022-07-26 17:10:44 发布

阅读量993

点赞数 1

分类专栏：机器学习深度学习

本文链接：https://blog.youkuaiyun.com/weipf8/article/details/105963023

版权

机器学习同时被 2 个专栏收录

24 篇文章

订阅专栏

深度学习

24 篇文章

订阅专栏

本文提出一个新奇的方法来加快神经网络的训练速度, 基于这样一个想法, 即对输入进行白化处理有助于加快收敛速度. 已知独立的随机变量之间一定是白化的(不相关的), 所以对网络输入进行独立成分分析能够获得白化的输入. 然而进行独立成分分析是十分耗时的, 为此作者提出一种被称为 Independent-Component (IC) 的神经网络结构来实现, 这个结构是批归一化和 dropout 的组合. 本文通过理论分析了这一结构的有效性, 通过实验也表明了这一改进提升了分类性能.

论文链接: https://arxiv.org/abs/1905.05928v1

本文的方法

本文提出的 IC 层结构是非常简单的, 首先它的位置如下图所示:

在这里插入图片描述

IC 层位于激活层之后, 它的下一层就是卷积层. IC 层的结构从代码上来看如下:

在这里插入图片描述

也就是简单得将 BatchNorm 和 Dropout 叠加在一起.

IC 层能够二次方地减少变量之间的非独立性, 线性地减少相关性. 在减少非独立性的同时, Dropout 操作也会线性的减少信息熵, 作者提到可以通过调整 $p$ 值来权衡获得的独立性和减少的信息熵. 有关理论证明请查看原文.

IC 方法直观解释如下: 批归一化使得变量具有零均值和单位方差, 这 ZCA 方法一样.Dropout 操作使得神经元以概率 p 输出其值, 或者通过输出零来使神经元失活,
这样一来经元的输出的信息将很少来自其他神经元, 也就是使得这些神经元在统计上变得彼此独立.

参考

Ioffe, S. and Szegedy, C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.
Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. Dropout: a simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1):1929–1958, 2014.
Le Cun, Y., Kanter, I., and Solla, S. A. Eigenvalues of covariance matrices: Application to neural-network learning. Physical Review Letters, 66(18):2396, 1991.
Moreno-Bote, R., Beck, J., Kanitscheider, I., Pitkow, X., Latham, P., and Pouget, A. Information-limiting correlations. Nature neuroscience, 17(10):1410, 2014.
Beaulieu-Laroche, L., Toloza, E. H., van der Goes, M.-S., Lafourcade, M., Barnagian, D., Williams, Z. M., Eskandar, E. N., Frosch, M. P., Cash, S. S., and Harnett, M. T. Enhanced dendritic compartmentalization in human cortical neurons. Cell, 175(3):643–651, 2018.