深度学习【2】Batch Normalization 论文翻译

最新推荐文章于 2024-04-25 09:48:44 发布

原创

最新推荐文章于 2024-04-25 09:48:44 发布 · 1.1w 阅读

46 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #DL #BN

本文翻译并解析了Batch Normalization的理论，探讨了内部协变量漂移问题及其对深度神经网络训练的影响。Batch Normalization通过归一化输入缓解这一问题，允许使用更高学习率并减少对初始化的依赖。实验表明，Batch Normalization可加速训练，提高模型性能，甚至在某些情况下可替代Dropout。在ImageNet分类任务中，应用BN的模型取得了优于人类的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注：本文翻译的原文为Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift中的BN理论知识（到3.1小节），同时会在翻译过程中加入一些自己的理解。目的是加深对提出BN的目的及其原理的理解。英语水平以及知识水平有待提高，有不足之处请大家提出来。
http://blog.youkuaiyun.com/linmingan/article/details/50780761

Abstract：当前神经网络层之前的神经网络层的参数变化，引起神经网络每一层输入数据的分布产生了变化，这使得训练一个深度神经网络（Deep Neural Networks）变得复杂。这样就要求使用更小的学习率，参数初始化也需要更为谨慎的设置。并且由于非线性饱和（注：如sigmoid激活函数的非线性饱和问题），训练一个深度神经网络会非常困难。我们称这个现象为：internal covariate shif；同时利用归一化层输入解决这个问题。我们将归一化层输入作为神经网络的结构，并且对每一个小批量训练数据执行这一操作。Batch Normalization（BN）能使用更高的学习率，并且不需要过多的注重参数初始化问题。BN 的过程与正则化相似，在某些情况下可以去除Dropout。将BN应用到一个state-of-the-art的图片分类模型中时，使用BN只要1/14的训练次数就能够达到同样的精度。使用含有BN神经网络模型能提升现有最好的ImageNet分类结果：在top-5 验证集中达到4.9%的错误率（测试集为4.8%），超出了人类的分类精度。
1 Introduction
深度学习极大的促进了许多领域的发展，如视觉、语音以及其他领域。随机梯度下降法（SGD）已经证明能够有效的训练深度神经网络，并且在SGD中加入momentum和Adgrad变量也达到了最好的性能。SGD优化参数 $\theta$ 来最小化损失函数

θ = a r g m i n θ 1 N \sum i = 1 N l (X i, θ)

$\theta=\mathop{argmin}_{\theta}\frac{1}{N}\sum_{i=1}^{N}l(X_i,\theta)$ ，其中

X1…N X 1 … N $X_{1…N}$ 为训练数据集。在使用SGD时，每次迭代我们使用一个大小为

m m $m$ 的小批量数据

X_{1 \dots m}

$X_{1…m}$ 。通过计算

1 m \partial l ( X i , θ ) \partial θ

$\frac{1}{m}\frac{\partial{l(X_i,\theta)}}{\partial{\theta}}$ 来逼近损失函数关于权值的梯度。在迭代过程中使用小批量数据相比使用一个样本有几个好处。首先，由小批量数据计算而来的损失函数梯度是由整个训练数据集的损失函数梯度的估计。并且随着小批量数据大小的增加，其性能会越好。其次，由于现代计算平台的并行性，小批量训练会比单个样例训练更高效。
尽管随机梯度下降法简单有效，但却需要谨慎的调整模型的参数，特别是在优化过程中加入学习率和参数初始化方式的选择。每一层的输入都会受之前所有层的参数影响，并且随着网络越深，即使参数的变化很小也为对每一层的输入产生很大的影响。这使得训练一个网络变得十分复杂。
神经网络层输入分布的改变，使得神经网络层必须不停的适应新的数据分布。当一个学习系统的输入数据分布产生变化，我们称这种现象为：Experience Covariate Shift. 解决这种现象的典型方法是领域适应。然而，Covariate Shift的概念的适用性能够从整个学习系统扩展到该系统的一部分，比如一个子网络或者其中的一层。考虑一个网络计算

l = F 2 (F 1 (u, θ 1), θ 2)

$l=F_2(F_1(u,\theta_1),\theta_2)$ 其中

F1 F 1 $F_1$ 和

F2 F 2 $F_2$ 是任意的变换函数。通过学习参数

θ1 θ 1 $\theta_1$ 和

θ2 θ 2 $\theta_2$ 来最小化

l l $l$ 。

θ_{2}

$\theta_2$ 的学习：如果

X=F1(u,θ1) X = F 1 ( u , θ 1 ) $X=F_1(u,\theta_1)$ 为子网络的输入，那么

l = F 2 (X, θ 2) .

$l=F_2(X,\theta_2).$ 则

θ2 θ 2 $\theta_2$ 的更新为 (

m m $m$ ：批量数据的样本数；

α

$\alpha$ ：学习率)

θ 2 \leftarrow θ 2 - α m \sum i = 1 m \partial F 2 ( X i , θ 2 ) \partial θ 2

$\theta_2\leftarrow\theta_2-\frac{\alpha}{m}\sum_{i=1}^{m}\frac{\partial F_2(X_i,\theta_2)}{\partial \theta_2}$ 因此，输入数据分布相同这一特性，使得子网络更容易训练。这与训练数据和测试数据有相同的分布是相似的。因此保持

X X $X$ 的分布不变是有利的。这样，