BatchNorm(BN)
遇到了问题
损失函数在最后,后面的层训练较快
数据输入在最底部
前面的层训练的慢
前面的层一变,所有都得跟着变
最后的层需要重新学习多次
导致收敛变慢
我们可以在学习底部层的时候避免变化顶部层吗?
所以提出了批量归一化BatchNorm(BN)
固定小批量里的均值和方差
μB=1∣B∣∑i∈BxiσB2=1∣B∣∑i∈B(xi−μB)2+ϵ \mu_B = \frac{1}{|B|}\sum_{i\in{B}}x_i \\σ_B^2 = \frac{1}{|B|}\sum_{i\in{B}}(x_i - \mu_B)^2 + \epsilon μB=∣B∣1i∈B∑xiσB2=∣B∣1i∈B∑(xi

本文介绍批量归一化(Batch Normalization, BN)技术如何解决训练过程中前面层的变化影响后续层的问题,通过标准化每一批次的数据来加速深层神经网络的训练过程,并减少对权重初始化的依赖。
最低0.47元/天 解锁文章
4619

被折叠的 条评论
为什么被折叠?



