Inception v2_batch normalization 论文笔记

最新推荐文章于 2022-11-07 20:06:24 发布

原创最新推荐文章于 2022-11-07 20:06:24 发布 · 283 阅读

0 ·

CC 4.0 BY-SA版权

深度学习同时被 2 个专栏收录

24 篇文章

订阅专栏

计算机视觉

21 篇文章

订阅专栏

批标准化技术通过解决内部协变量变化问题，显著加速深度神经网络的训练过程。该方法通过对每一层输入进行标准化，允许使用更大学习率，简化参数初始化，具有正则化效果，甚至减少dropout需求。应用到顶级图像分类模型中，减少了14倍训练步数，同时提升了准确率，达到了ImageNet数据集上4.9%的top-5验证集正确率。

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift——2015

摘要：由于在训练过程中前层参数的改变，导致每一层的输入的分布发生变化，所以训练深层神经网络是复杂的。这也导致需要小的学习率和小心的参数初始化工作，因此减轻了训练速度，也因为陷入饱和非线性加剧了模型训练的困难。我们把这种现象称为内部协变量变化，并且通过每一层输入标准化来解决此问题。我们的方法通过将标准化作为模型结构的一部分，并且对每一个训练mini-batch实施标准化。批标准化允许我们使用更大的学习率、对参数初始化可以不那么小心翼翼。它也有正则化的效果，在有些场合下可减少dropout的需要。将批标准化应用于当前最好的图像分类模型，在降低14倍训练步数仍取得了相同的准确率，并且比原模型有更大的边际（significiant margin）。使用批标准化的集成网络，我们提高了当前ImageNet分类最好成绩：达到验证集4.9% top-5正确率，测试集4.8% top-5正确率，超过了人类的水平。

1.使用mini-batch 比每次只训练一个样本的两个优点：

在mini-batch上loss的梯度是在整个训练集上loss梯度的一个估计，随着 batch size增大，这种估计质量会提升；
在一个batch上的计算比m次单个样本的计算要高效，得益于当代计算平台的并行计算能力。

2.covariate shift

每一层输入的分布发生变化会导致问题，因为后面的层要相应的调节以适应新的分布。这种现象被称为covariate shift（2010）。原始的covariate shift指整个系统的输入发生变化，本文将covariate shift概念进行了推广，从整体推广到部分（parts），如sub-network or a layer，称为internal covariate shift;