李沐《动手学深度学习》 | 4.5-4.6 正则化技术:权重衰退与Dropout

正则化

过拟合指的是只能拟合训练数据,但不能很好地拟合不包含在训练数据中的其他数据。

机器学习的目标是提高泛化能力,即便是没有包含在训练数据里的未观测数据,也希望模型可以进行正确的识别。

过拟合的原因主要

  • 模型拥有大量参数、表现力强
  • 训练数据少

正则化定义:通过约束模型复杂度来抑制过拟合

说明:正则项只在训练时使用,只对权重产生影响。

权重衰退和dropout都是正则化技术

权重衰退:常用抑制过拟合的方法

权值衰退:通过在学习的过程中对大的权重进行惩罚,来抑制过拟合。

很多过拟合原本就是因为权重参数值过大才发生的。假设权重 w w w特别大,则特征 x i x_i xi的微小变化会被放大,导致输出剧烈波动。=> 实际影响:模型会过度关注训练数据中的噪声,而非数据中的整体规律

解释:若数据中存在噪声或局部异常值,复杂模型需通过大权重调整输出,使其剧烈弯曲以穿过这些点。大权重使模型函数在某些区域呈现高频震荡,完美拟合训练噪声,但无法泛化到新数据。

使用均方范数作为硬性限制

通过限制参数值的选择范围来控制模型的容量。

神经网络学习目的是减少损失函数的值 min ⁡    l ( w , b ) \min\;l(w,b) minl(w,b),在最小化损失值的时候,我们加入一个限制 ∣ ∣ w ∣ ∣ 2 ≤ θ ||w||^2 \leq \theta ∣∣w2θ,小的 θ \theta θ意味着更强的正则项。

一般不会使用这个作为优化函数,因为优化起来很麻烦。

使用均方范数作为柔性限制

对每个 θ \theta θ,都可以找到 λ \lambda λ使得之前的目标函数等价于 min ⁡ w , b l ( w , b ) + λ 2 ∣ ∣ w ∣ ∣ 2 \min_{w,b} l(w,b) + \frac{\lambda}{2}||w||^2 minw,bl(w,b)+2λ∣∣w2=> 我们需要找到一个同时最小化原始损失函数权重的大小的参数值。

  • 原损失项 l ( w , b ) l(w,b) l(w,b):衡量模型预测值与真实值的误差
  • 正则项 λ 2 ∣ ∣ w ∣ ∣ 2 \frac{\lambda}{2}||w||^2 2λ∣∣w2:惩罚 权重的平方和 ∥ w ∥ 2 = w 1 2 + w 2 2 + ⋯ + w n 2 ∥w∥^2=w_1^2+w_2^2+⋯+w_n^2 w2=w12+w22++wn2,其中超参数 λ \lambda λ控制了正则项的重要程度, λ \lambda λ设置的越大,对大的权重施加的惩罚就越重。
    • λ \lambda λ增大时,正则项 λ 2 ∣ ∣ w ∣ ∣ 2 \frac{\lambda}{2}||w||^2 2λ∣∣w2 在目标函数中的权重增加。优化过程会优先降低权重的平方和,迫使模型选择较小的权重。
    • 如果某个权重 w i w_i wi 较大,其平方值 w i 2 w_i^2 wi2 会显著增大正则项的值。较大的 λ \lambda λ会放大这种惩罚,直接抑制权重的增长。

情况分析

λ = 0 \lambda = 0 λ=0,目标函数退化为为原始损失 m i n    l ( w , b ) min\;l(w,b) minl(w,b),模型只关注最小化训练误差,可能学习到复杂的权重组合,导致过拟合。

λ = 10 \lambda=10 λ=10,正则项占主导地位,模型必须显著减小权重以最小化目标函数。权重被迫趋近于0,模型退化为简单函数,可能欠拟合。如果 λ − > ∞ \lambda -> \infty λ>,那么 w ∗ − > 0 w^* ->0 w>0

优化过程

在梯度下降中,时间t的权重更新公式为: w t + 1 ← w t − η ( ∂ l ( w t , b ) ∂ w t + λ w t ) = ( 1 − η λ ) w t − η ∂ l ( w t , b ) ∂ w t w_{t+1}←w_t−η(\frac{∂l(w_t,b)}{∂w_t}+λw_t) = (1-η\lambda)w_t - η\frac{∂l(w_t,b)}{∂w_t} wt+1wtη(wtl(wt,b)+λwt)=(1ηλ)wtηwtl(w<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值