动手学习机器学习（Day7权重衰退）

最新推荐文章于 2025-03-10 16:25:53 发布

m0_63453494

最新推荐文章于 2025-03-10 16:25:53 发布

阅读量69

点赞数

分类专栏：动手学习机器学习文章标签：机器学习学习人工智能

本文链接：https://blog.youkuaiyun.com/m0_63453494/article/details/130394835

版权

动手学习机器学习专栏收录该内容

11 篇文章

订阅专栏

文章讲述了权重衰退（WeightDecay）的概念，它是通过L2正则化来避免过拟合的一种方法。L2正则化通过限制模型参数的大小，控制模型复杂度，防止模型在训练过程中过度适应训练数据。在参数更新过程中，权重会趋向于更小的值，从而达到平滑模型的效果。文章还介绍了拉格朗日乘子如何用于实现这一目的，并展示了参数更新的公式，强调了正则化项如何影响权重的更新方向和幅度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

效果不是很好，一般参数取0.01或者0.001
相当于滤波器，过滤噪音，一般噪音越大， $\mathbf{w}$ 就比较大
最常见处理过拟合的方法
怎么控制模型容量？

控制模型参数，使参数少
使参数可选择范围小
权重衰退是通过限制参数选择范围来实现对过拟合的处理
通过限制参数值的选择范围来控制模型容量
$\min\ell(\mathbf{w},b)\quad subject\quad to\quad||\mathbf{w}||^2\leq\theta$
通常不限制偏移b（限不限制都差不多,b是对零点的偏移，不应该限制）
小的 $\theta$ 意味着更强的正则项
就是把参数 $w$ 的范围限制在一个范围之内，将每个w的值平方限制在 $\theta$ 内
一般不会直接用这个优化函数，因为比较麻烦，这里就是给出了一个控制参数范围的概念

使用均方范数进行柔性限制

对于每个 $\theta$ ，都可以找到 $\lambda$ 使得之前的目标函数等价于下面：
$\min\ell(\mathbf{w},b)+\frac{\lambda}{2}||\mathbf{w}||^2$
- 用拉格朗日乘子证明
$\lambda=0$ ：无作用
$\lambda\rightarrow\infty,\mathbf{w}^{*}\rightarrow0$
这个不是硬性限制，相较于刚才的公式，可以发现，对于参数 $\mathbf{w}$ ，这里并不是强制限制在某个范围内，而是柔性限制，会更加柔和一些

![[Pasted image 20230426200931.png]]

通过图片的演示，可以发现，如果没有 $\lambda$ 的控制，在对损失函数求最小值时，将会按照梯度下降的方式，取到右上角那个函数的较靠近中心处。但是这样可能会出现过拟合，所以我们需要通过类似于控制精度的方式，将 $\mathbf{w}$ 的取值控制的宽泛一些。通过增加带 $\lambda$ 的式子，相当于在函数图像的中央 $(0, 0)$ 处，增加了一个开口向上的函数，由于越远离 $(0, 0)$ ，函数值越大，将导致原图像最低点向 $(0, 0)$ 处移动，这样，求得的 $\mathbf{w}$ 得到了一些偏差

参数更新法则

为什么叫权重衰退呢？可以根据参数更新公式理解
参数更新仍然是通过梯度下降的方式，在原先参数更新的公式是：
$\mathbf{w}_{t+1}= \mathbf{w}_{t}-\eta\frac{\partial{\ell(\mathbf{w}_{t},b_t)}}{\partial\mathbf{w}_{t}}$

现在：
首先计算梯度：
$\frac{\partial}{\partial\mathbf{w}}(\ell(\mathbf{w},b)+\frac{\lambda}{2}||\mathbf{w}||^2)=\frac{\partial{\ell(\mathbf{w},b)}}{\partial\mathbf{w}}+\lambda\mathbf{w}$
然后将这个梯度带入原公式得：
$\mathbf{w}_{t+1}= (1-\eta\lambda)\mathbf{w}_{t}-\eta\frac{\partial{\ell(\mathbf{w}_{t},b_t)}}{\partial\mathbf{w}_{t}}$
可以发现，在 $\mathbf{w}_t$ 的参数变小了，通常 $\eta\lambda<1$ ，因此在深度学习叫权重衰退