【花书阅读笔记】第七章：深度学习中的正则化 Part I

最新推荐文章于 2025-06-16 10:57:13 发布

原创

最新推荐文章于 2025-06-16 10:57:13 发布 · 335 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

本文详细介绍了深度学习中正则化的两种常见方法——L2参数正则化（权重衰减）和L1参数正则化。L2正则化通过惩罚权重平方和来防止过拟合，导致权重向量沿着Hessian矩阵较大特征值方向收缩。L1正则化则倾向于产生稀疏权重，鼓励更多的参数为0。此外，还讨论了数据集增强和多任务学习对提高模型泛化能力的作用。

【花书阅读笔记】第七章：深度学习中的正则化 Part I

参数范数惩罚

许多正则方法是对目标函数 $J$ 添加了一个惩罚范数 $Ω(θ)\Omega(\theta)$
$\tilde{J}(\boldsymbol{\theta} ; \boldsymbol{X}, \boldsymbol{y})=J(\boldsymbol{\theta} ; \boldsymbol{X}, \boldsymbol{y})+\alpha \Omega(\boldsymbol{\theta})$
其中 $α∈[0,∞)\alpha \in[0, \infty)$ 是权衡范数惩罚项 $Ω\Omega$ 和标准目标函数 $\theta)$ 相对贡献的超参数。将 \alpha 设为 0 表示没有正则化。 $α\alpha$ 越大，对应正则化惩罚越大。

在探究不同范数的正则化表现之前，我们需要说明一下，在神经网络中，参数包括每一层仿射变换的权重和偏置，我们通常只对权重做惩罚而不对偏置做正则惩罚。

$L^{2}$ 参数正则化

**权重衰减（weight decay）**的 L 2 参数范数惩罚:

通过向目标函数添加一个正则项 $Ω(θ)=12∥w∥22\Omega(\boldsymbol{\theta})=\frac{1}{2}\|\boldsymbol{w}\|_{2}^{2}$ ，使权重更加接近原点。

这样一个模型具有以下总的目标函数：
$\tilde{J}(\boldsymbol{w} ; \boldsymbol{X}, \boldsymbol{y})=\frac{\alpha}{2} \boldsymbol{w}^{\top} \boldsymbol{w}+J(\boldsymbol{w} ; \boldsymbol{X}, \boldsymbol{y})$
与之对应的梯度为
$\nabla_{w} \tilde{J}(\boldsymbol{w} ; \boldsymbol{X}, \boldsymbol{y})=\alpha \boldsymbol{w}+\nabla_{w} J(\boldsymbol{w} ; \boldsymbol{X}, \boldsymbol{y})$
使用单步梯度下降更新权重，即执行以下更新：
$\boldsymbol{w} \leftarrow \boldsymbol{w}-\epsilon\left(\alpha \boldsymbol{w}+\nabla_{w} J(\boldsymbol{w} ; \boldsymbol{X}, \boldsymbol{y})\right)$
每步执行通常的梯度更新之前先收缩权重向量（将权重向量乘以一个常数因子）

另 $w∗=arg⁡min⁡wJ(w)\boldsymbol{w}^{*}=\arg \min _{\boldsymbol{w}} J(\boldsymbol{w})$

则假设目标函数是二次的，比如以均方误差作为拟合的线性回归情况，近似的 $J^(θ)\hat{J}(\theta)$
$J^(θ)=J(w∗)+12(w−w∗)⊤H(w−w∗) \hat{J}(\boldsymbol{\theta})=J\left(\boldsymbol{w}^{*}\right)+\frac{1}{2}\left(\boldsymbol{w}-\boldsymbol{w}^{*}\right)^{\top} \boldsymbol{H}\left(\boldsymbol{w}-\boldsymbol{w}^{*}\right)$