【深度学习】关键技术-正则化（Regularization）

深度学习正则化技术全解析

原创已于 2025-01-16 10:04:33 修改 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习

于 2025-01-16 10:00:17 首次发布

人工智能同时被 3 个专栏收录

121 篇文章

订阅专栏

机器学习

104 篇文章

订阅专栏

深度学习

32 篇文章

订阅专栏

正则化（Regularization） 是一种用于防止模型过拟合的技术。它通过在损失函数中添加额外的约束项，限制模型的复杂度，从而提高模型的泛化能力。

正则化的主要作用

防止过拟合：通过抑制模型对训练数据的过度拟合，提升对未见数据的预测能力。
控制模型复杂度：约束模型参数的大小，避免模型过于灵活。
提高稳定性：减少模型对输入噪声的敏感性。

常见的正则化方法

1. L1 正则化

在损失函数中添加权重绝对值的和。
正则项：

$\text{Regularization Term} = \lambda \sum |w_i|$
特点：倾向于使一些权重变为零，具有稀疏性，适合特征选择。

2. L2 正则化

在损失函数中添加权重平方和。
正则项：

$\text{Regularization Term} = \lambda \sum w_i^2$
特点：限制权重大小，但不会将权重直接设为零。

3. Elastic Net 正则化

综合 L1 和 L2 正则化：

$\text{Regularization Term} = \lambda_1 \sum |w_i| + \lambda_2 \sum w_i^2$
特点：结合了 L1 的稀疏性和 L2 的稳定性。

4. Dropout

在每次训练中随机忽略一定比例的神经元，使模型更具鲁棒性。
特点：通过减少神经元之间的依赖，降低过拟合风险。

5. Early Stopping

在训练过程中监控验证集的损失，当验证集性能开始下降时提前停止训练。
特点：不需要显式正则化项，依赖于训练动态。

6. 数据增强

虽然不直接添加正则项，但通过对训练数据的扩充（如翻转、旋转、裁剪），提升模型的泛化能力。

7. Batch Normalization

在每一层输入上进行标准化，并引入可学习参数重新调整数据分布。
特点：间接起到正则化的效果，同时加速训练。

正则化的损失函数公式

对于一个带正则化的模型，损失函数通常为：

$\text{Loss} = \text{Original Loss} + \text{Regularization Term}$

例如：

L1 正则化：

$\text{Loss} = \text{MSE} + \lambda \sum |w_i|$
L2 正则化：

$\text{Loss} = \text{MSE} + \lambda \sum w_i^2$

代码示例

以下是使用 L2 正则化和 Dropout 的代码示例：

L2 正则化

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.regularizers import l2

# 创建模型
model = Sequential([
    Dense(64, activation='relu', kernel_regularizer=l2(0.01), input_shape=(100,)),
    Dense(64, activation='relu', kernel_regularizer=l2(0.01)),
    Dense(1, activation='sigmoid')
])

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy')

Dropout

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# 创建模型
model = Sequential([
    Dense(64, activation='relu', input_shape=(100,)),
    Dropout(0.5),  # Dropout 层，随机忽略 50% 的神经元
    Dense(64, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy')