Dive-into-DL-TensorFlow2.0项目解析：权重衰减原理与实现详解

最新推荐文章于 2025-06-10 09:20:50 发布

翟珊兰

最新推荐文章于 2025-06-10 09:20:50 发布

阅读量243

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00494/article/details/148552628

Dive-into-DL-TensorFlow2.0项目解析：权重衰减原理与实现详解

Dive-into-DL-TensorFlow2.0 项目地址: https://gitcode.com/gh_mirrors/di/Dive-into-DL-TensorFlow2.0

引言

在深度学习模型训练过程中，过拟合是一个常见且棘手的问题。当模型在训练集上表现优异但在测试集上表现不佳时，我们就遇到了过拟合现象。本文将深入探讨一种有效应对过拟合的技术——权重衰减(Weight Decay)，这是Dive-into-DL-TensorFlow2.0项目中介绍的重要深度学习基础技术之一。

权重衰减的基本概念

什么是权重衰减

权重衰减是一种正则化技术，它通过在损失函数中添加一个与权重参数大小相关的惩罚项，来限制模型的复杂度。这种方法的核心思想是：较大的权重参数往往会导致模型对训练数据过度敏感，从而引发过拟合。通过惩罚大的权重值，我们可以促使模型学习到更平滑、泛化能力更强的解。

L2正则化的数学表达

权重衰减在数学上等价于L2范数正则化。对于一个线性回归模型，原始损失函数为：

$$ \ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2 $$

添加L2正则化项后，新的损失函数变为：

$$ \ell(w_1, w_2, b) + \frac{\lambda}{2n} |\boldsymbol{w}|^2 $$

其中：

$\lambda$ 是控制正则化强度的超参数
$|\boldsymbol{w}|^2$ 是权重向量的L2范数平方（即各元素平方和）

权重衰减的工作原理

梯度下降中的权重更新

在添加L2正则化后，权重参数的更新公式会发生明显变化。以小批量梯度下降为例，权重更新公式变为：

$$ w \leftarrow (1 - \frac{\eta\lambda}{|\mathcal{B}|})w - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \frac{\partial \ell^{(i)}}{\partial w} $$

这个公式揭示了"权重衰减"名称的由来：在每次更新时，权重会先乘以一个小于1的因子$(1 - \frac{\eta\lambda}{|\mathcal{B}|})$，相当于让权重值逐渐"衰减"。

正则化强度的控制

超参数$\lambda$控制着正则化的强度：

当$\lambda=0$时，正则化项不起作用，模型可能过拟合
当$\lambda$过大时，模型会过度惩罚大权重，可能导致欠拟合
合适的$\lambda$值需要在实践中通过验证集进行调整

权重衰减的实践应用

高维线性回归实验

为了演示权重衰减的效果，我们构建一个高维线性回归问题：

n_train, n_test, num_inputs = 20, 100, 200
true_w, true_b = tf.ones((num_inputs, 1)) * 0.01, 0.05

features = tf.random.normal(shape=(n_train + n_test, num_inputs))
labels = tf.keras.backend.dot(features, true_w) + true_b
labels += tf.random.normal(mean=0.01, shape=labels.shape)

这个设置中，我们故意使用少量训练样本(20个)和高维特征(200维)，这样的设置很容易导致过拟合。

从零开始实现

初始化参数：

def init_params():
    w = tf.Variable(tf.random.normal(mean=1, shape=(num_inputs, 1)))
    b = tf.Variable(tf.zeros(shape=(1,)))
    return [w, b]

定义L2惩罚项：

def l2_penalty(w):
    return tf.reduce_sum((w**2)) / 2

训练过程：

def fit_and_plot(lambd):
    w, b = init_params()
    for _ in range(num_epochs):
        for X, y in train_iter:
            with tf.GradientTape() as tape:
                l = loss(net(X, w, b), y) + lambd * l2_penalty(w)
            grads = tape.gradient(l, [w, b])
            d2l.sgd([w, b], lr, batch_size, grads)

实验结果分析

不使用权重衰减($\lambda=0$)时：

训练误差迅速下降，但测试误差保持较高水平
权重参数的L2范数较大(约1.39)
明显的过拟合现象

使用权重衰减($\lambda=3$)时：

训练误差和测试误差更加接近
权重参数的L2范数显著减小(约0.31)
过拟合现象得到缓解

TensorFlow 2.0中的简洁实现

TensorFlow 2.0的Keras API提供了更简洁的实现方式：

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(1, 
                             kernel_regularizer=regularizers.l2(wd)))
model.compile(optimizer=tf.keras.optimizers.SGD(lr=lr),
             loss=tf.keras.losses.MeanSquaredError())

通过kernel_regularizer参数直接指定L2正则化，大大简化了代码实现。