[深度学习基础]正则化

最新推荐文章于 2025-09-06 15:28:57 发布

原创最新推荐文章于 2025-09-06 15:28:57 发布 · 2.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

正则化是深度学习中防止过拟合的重要手段，包括L1、L2和Dropout等方法。L1正则化可能导致权重值减小至0，降低模型复杂度；L2正则化则通过平滑权重避免大幅波动。Dropout通过随机失活神经元降低网络依赖，减少过拟合风险。选择合适的正则化参数平衡模型复杂度与准确性至关重要。

正则化是深度学习神经网络模型在训练过程当中常用的一种手段，使用正则化处理的主要目的是给网络的损失函数加以限制，防止其在训练过程当中“失控”；其次，是为了通过降低模型的复杂度，降低模型对于数据的依赖程度，防止出现过拟合现象，提高模型对于不同类型数据的泛化能力。

正则化本身是一种可以防止深度神经网络出现过拟合现象的技术，可以用于提高深度学习模型在面对新数据时的准确性和预测有效性。过拟合指的是神经网络模型面对训练数据时，性能表现非常优秀，但是当它从同一个问题领域输入新的数据时，模型效果会变差。当前常用的几种正则化方法是L1、L2和Dropout三种。

通常来说，深度学习神经网络模型是在不断的“调参”过程中达到性能最优的，在调参的过程当中，为了限制某些参数，避免出现参数在循环迭代当中出现失控的现象，往往会在损失函数的后面加上一个惩罚项，也即是我们所说的正则化操作，即：损失函数=损失项+正则化项。由于在损失函数最后附加了一个正则化项，这使得误差在反向传播的过程当中破使网络层的权重值减小，而权重矩阵较小的神经网络训练起来往往更为简单，因此，正则化操作在一定程度上减少了过拟合现象，使模型训练更为简单。

L1正则化其公式如下：

$f=Loss+ \frac{\lambda}{2}\times \sum \left \| w \right \|$

其中， $\lambda$ 表示正则化参数，是一个可优化的超参数。L1正则化与L2正则化不同，L1正则化下模型的权重值可以减小为0。较小的权重值可以减少隐藏层神经元的影响，当权重值减小到趋近于0时，隐藏层神经元的影响就变得可以忽略不计，从而使得神经网络模型的整体复杂度得到有效降低。

L2正则化公式如下：

$f=Loss+ \frac{\lambda}{2}\times \sum \left \| w \right \|^{2}$

L2正则化又被称为岭回归，它可以减少权重绝对值大小，使权重不会出现较大的起伏，祈祷平滑权重的作用。

选择正则化参数 $\lambda$ 时，主要考量标准是在模型的低复杂度和准确性之间寻找平衡，如果 $\lambda$ 取值过大，则模型就会过于简单，会出现模型能力退化，数据拟合不足的问题，模型无法有效提取训练集数据分布特征，无法做出有效的预测。如果 $\lambda$ 取值太低，则模型复杂程度会比较高，就存在过拟合的风险。

Dropout是神经网络当中最常用的一种正则化技术，以全连接神经网络为例，在没有使用Dropout的全连接神经网络当中，所有的神经元都处于激活状态，因此所有的权重参数在训练迭代的过程中都会被更新。当在网络中加入Dropout操作之后，会有一部分神经元处于不被激活的状态，并且不被视为神经网络的一部分。每次网络迭代时，都会随机删除某些节点，这样在某一层中就会有部分神经元与前一层或者后一层的连接是断开的。因此在每个正向传播和权重更新步骤都会有一定概率的神经元被激活，减少被激活的神经元的数量可以减少计算的复杂度，有效降低神经网络的过拟合现象。

*部分内容来源网络，如有侵权麻烦联系删除~