BN是做了线性变换，和加一个线性层有什么区别？

最新推荐文章于 2025-05-10 15:19:48 发布

上海科技大学杨家伟

最新推荐文章于 2025-05-10 15:19:48 发布

阅读量903

点赞数 10

分类专栏：深度学习、机器学习文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/m0_53297170/article/details/145146263

版权

9 篇文章

订阅专栏

BN（Batch Normalization）与线性层的区别

BN 是一种正则化方法，用于标准化网络中每一层的输出，从而加速训练并提高模型的稳定性。它对输入数据进行线性变换和标准化，但它的目的是解决深度网络训练中的问题，如梯度消失或梯度爆炸。

BN 对每个 mini-batch 的输入进行标准化和仿射变换：

$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$

$\gamma \hat{x} + \beta$

其中：

注意：
BN 并不增加显式的非线性变换，也不会改变输入的特征维度。它主要调整输入的分布，同时引入了少量可学习参数。

线性层是一种明确的线性变换层，用于改变特征空间的表示，通常伴随着激活函数来引入非线性。它的主要目标是让神经网络学习到更复杂的特征映射。

线性层的计算公式是：

$y = W x + b$

其中：

注意：
线性层会显式改变特征的维度，并提供可学习的权重和偏置。

特性	Batch Normalization	线性层
目的	标准化输入分布，稳定训练，加速收敛	学习特征映射，改变特征维度
公式	$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}, \ y = \gamma \hat{x} + \beta$	$y = W x + b$
是否改变特征维度	否	是
是否引入非线性	否（仅标准化和仿射变换）	通常配合激活函数引入非线性
可学习参数	是( $g amma$ , $b e t a$ )	是 $(W, b$ )
核心作用	稳定特征分布，提高训练速度，增加网络鲁棒性	学习映射关系，增强模型表达能力