文章目录
在提到批量归一化的面试问题时候,一般会以以下几种形式提问:
- 为什么要引入
BN? BN解决了什么问题?BN的公式是怎样的?BN公式中,有哪些参数是可学的?BN中,均值和方差的尺寸shape是什么样子的?BN在训练阶段和验证阶段,有什么不同?
本文就围绕上述的问题,展开来说,希望对你有帮助。如果真有,麻烦给个赞👍,支持一波。
后面的内容主要是学习了沐神的视频,进行了一些理解和补充。感兴趣的可以直接去看原视频,视频链接:批量归一化【动手学深度学习v2】
一、批量归一化概念
1.1、为什么要引入批量归一化

我们都知道:
- 数据
forward阶段,从下往上,输入数据,得到结果做预测
批量归一化(BN)是为了解决深度学习中内部协变量转移问题,加速训练并提高模型性能。BN通过计算批次数据的均值和方差进行归一化,然后应用可学习的参数进行调整。它通常应用于全连接层和卷积层的激活函数前。在推理阶段,使用训练阶段统计的全局均值和方差。BN与Layer Normalization(LN)的区别在于BN沿通道维度归一化,而LN对每个样本的所有通道进行归一化。BN在图像处理中表现良好,而在NLP中,LN可能更合适。
订阅专栏 解锁全文
2480

被折叠的 条评论
为什么被折叠?



