李沐《动手学深度学习》 | 4.5-4.6 正则化技术：权重衰退与Dropout

最新推荐文章于 2025-11-24 23:34:07 发布

原创

最新推荐文章于 2025-11-24 23:34:07 发布 · 770 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

文章目录

正则化

正则化

过拟合指的是只能拟合训练数据，但不能很好地拟合不包含在训练数据中的其他数据。

机器学习的目标是提高泛化能力，即便是没有包含在训练数据里的未观测数据，也希望模型可以进行正确的识别。

过拟合的原因主要

模型拥有大量参数、表现力强
训练数据少

正则化定义：通过约束模型复杂度来抑制过拟合

说明：正则项只在训练时使用，只对权重产生影响。

权重衰退和dropout都是正则化技术

权重衰退：常用抑制过拟合的方法

权值衰退：通过在学习的过程中对大的权重进行惩罚，来抑制过拟合。

很多过拟合原本就是因为权重参数值过大才发生的。假设权重 $w$ 特别大，则特征 $x_i$ 的微小变化会被放大，导致输出剧烈波动。=> 实际影响：模型会过度关注训练数据中的噪声，而非数据中的整体规律

解释：若数据中存在噪声或局部异常值，复杂模型需通过大权重调整输出，使其剧烈弯曲以穿过这些点。大权重使模型函数在某些区域呈现高频震荡，完美拟合训练噪声，但无法泛化到新数据。

使用均方范数作为硬性限制

通过限制参数值的选择范围来控制模型的容量。

神经网络学习目的是减少损失函数的值 $\min\;l(w,b)$ ，在最小化损失值的时候，我们加入一个限制 $||w||^2 \leq \theta$ ，小的 $\theta$ 意味着更强的正则项。

一般不会使用这个作为优化函数，因为优化起来很麻烦。

使用均方范数作为柔性限制

对每个 $\theta$ ，都可以找到 $\lambda$ 使得之前的目标函数等价于 $\min_{w,b} l(w,b) + \frac{\lambda}{2}||w||^2$ => 我们需要找到一个同时最小化原始损失函数和权重的大小的参数值。

原损失项 $l (w, b)$ ：衡量模型预测值与真实值的误差
正则项 $\frac{\lambda}{2}||w||^2$ ：惩罚权重的平方和 $w∥^2=w_1^2+w_2^2+⋯+w_n^2$ ，其中超参数 $\lambda$ 控制了正则项的重要程度, $\lambda$ 设置的越大，对大的权重施加的惩罚就越重。
- 当 $\lambda$ 增大时，正则项 $\frac{\lambda}{2}||w||^2$ 在目标函数中的权重增加。优化过程会优先降低权重的平方和，迫使模型选择较小的权重。
- 如果某个权重 $w_i$ 较大，其平方值 $w_i^2$ 会显著增大正则项的值。较大的 $\lambda$ 会放大这种惩罚，直接抑制权重的增长。

情况分析

当 $\lambda = 0$ ，目标函数退化为为原始损失 $min\;l(w,b)$ ，模型只关注最小化训练误差，可能学习到复杂的权重组合，导致过拟合。

当 $\lambda=10$ ，正则项占主导地位，模型必须显著减小权重以最小化目标函数。权重被迫趋近于0，模型退化为简单函数，可能欠拟合。如果 $\lambda -> \infty$ ，那么 $w^* ->0$ 。

优化过程

在梯度下降中，时间t的权重更新公式为： $w_{t+1}←w_t−η(\frac{∂l(w_t,b)}{∂w_t}+λw_t) = (1-η\lambda)w_t - η\frac{∂l(w_t,b)}{∂w_t}$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。