关于batch normalization究竟做了什么？

最新推荐文章于 2025-05-29 21:53:57 发布

原创

最新推荐文章于 2025-05-29 21:53:57 发布 · 599 阅读

3 ·

CC 4.0 BY-SA版权

昨天同事们突然讨论起了Batch Normalization的问题，大家从internal covariate shift的角度讨论了半天，结果突然间懵逼了，陷入了“道理我都懂，但是为什么会有效的？”的状态，这个问题不弄明白感觉彻夜难眠了。于是下班后赶紧又第N遍的研究了一下bn这个操作，得到了一些有解释性的答案，在这里记录和分享一下。

关于Internal Covariate Shift

相信很多关于bn的讲解应该都是来自于“internal covariat shift”的理论，那么到底什么是internal covariat shift，理论点讲：对于层间的信号，源空间和目标空间的条件概率一致，但边缘概率不同。通俗一点说，就是对于神经网络的每一层来讲，输入和输出经过了层内的计算，他们的分布发生了变化，但是特征所指示的样本标记是一样。（来自：知乎）并且这个变化会随着网络深度的增大而增大，这就是internal covariat shift 。这样不利于网络的收敛，于是batch normalization就是通过mini-batch来规范层的输入，固定每层的均值和方差。