1、全连接层的偏置
在神经网络的全连接层(通常是最后一层分类器中),偏置项的作用是让分类器的超平面可以偏移,不需要经过原点。当偏置项关闭(设为0)时,超平面没有额外的平移自由度,因此只能依靠输入特征和权重来决定分类边界的位置。
从数学上讲,假设最后一层的输出是线性变换 y=Wx+b,其中 W 是权重矩阵,x是输入特征向量,b是偏置向量。如果我们将偏置向量 b设为零,那么分类的超平面就由 Wx=0确定。这意味着分类超平面必须满足 Wx=0,它的解集是经过原点的平面。这种情况下,不论数据的原始分布如何,超平面都无法偏离原点,因此会强制分类器将决策边界对准原点。
有偏置时,决策超平面的公式变成 Wx+b=0,即分类边界可以通过调整 b 来偏离原点,从而适应更多的数据分布。所以,关掉偏置就等于限制了分类器的自由度,使得超平面必须经过原点。
2、正则化和归一化
在深度学习中,正则化和归一化是两种不同的技术,各有不同的作用和使用目的:
1. 正则化 (Regularization)
正则化是一种防止模型过拟合的方法,通过增加模型的约束来避免其在训练集上表现过好,而在测试集上泛化能力差。常见的正则化方法包括:
-
L2 正则化 (L2 Regularization):也叫权重衰减,通过在损失函数中加入权重的平方和惩罚项,迫使模型的权重更小、更平滑,从而减小模型的复杂度。