文章目录
正则化
过拟合指的是只能拟合训练数据,但不能很好地拟合不包含在训练数据中的其他数据。
机器学习的目标是提高泛化能力,即便是没有包含在训练数据里的未观测数据,也希望模型可以进行正确的识别。
过拟合的原因主要
- 模型拥有大量参数、表现力强
- 训练数据少
正则化定义:通过约束模型复杂度来抑制过拟合
说明:正则项只在训练时使用,只对权重产生影响。
权重衰退和dropout都是正则化技术
权重衰退:常用抑制过拟合的方法
权值衰退:通过在学习的过程中对大的权重进行惩罚,来抑制过拟合。
很多过拟合原本就是因为权重参数值过大才发生的。假设权重 w w w特别大,则特征 x i x_i xi的微小变化会被放大,导致输出剧烈波动。=> 实际影响:模型会过度关注训练数据中的噪声,而非数据中的整体规律
解释:若数据中存在噪声或局部异常值,复杂模型需通过大权重调整输出,使其剧烈弯曲以穿过这些点。大权重使模型函数在某些区域呈现高频震荡,完美拟合训练噪声,但无法泛化到新数据。
使用均方范数作为硬性限制
通过限制参数值的选择范围来控制模型的容量。
神经网络学习目的是减少损失函数的值 min l ( w , b ) \min\;l(w,b) minl(w,b),在最小化损失值的时候,我们加入一个限制 ∣ ∣ w ∣ ∣ 2 ≤ θ ||w||^2 \leq \theta ∣∣w∣∣2≤θ,小的 θ \theta θ意味着更强的正则项。
一般不会使用这个作为优化函数,因为优化起来很麻烦。
使用均方范数作为柔性限制
对每个 θ \theta θ,都可以找到 λ \lambda λ使得之前的目标函数等价于 min w , b l ( w , b ) + λ 2 ∣ ∣ w ∣ ∣ 2 \min_{w,b} l(w,b) + \frac{\lambda}{2}||w||^2 minw,bl(w,b)+2λ∣∣w∣∣2=> 我们需要找到一个同时最小化原始损失函数和权重的大小的参数值。
- 原损失项 l ( w , b ) l(w,b) l(w,b):衡量模型预测值与真实值的误差
- 正则项 λ 2 ∣ ∣ w ∣ ∣ 2 \frac{\lambda}{2}||w||^2 2λ∣∣w∣∣2:惩罚 权重的平方和 ∥ w ∥ 2 = w 1 2 + w 2 2 + ⋯ + w n 2 ∥w∥^2=w_1^2+w_2^2+⋯+w_n^2 ∥w∥2=w12+w22+⋯+wn2,其中超参数 λ \lambda λ控制了正则项的重要程度, λ \lambda λ设置的越大,对大的权重施加的惩罚就越重。
- 当 λ \lambda λ增大时,正则项 λ 2 ∣ ∣ w ∣ ∣ 2 \frac{\lambda}{2}||w||^2 2λ∣∣w∣∣2 在目标函数中的权重增加。优化过程会优先降低权重的平方和,迫使模型选择较小的权重。
- 如果某个权重 w i w_i wi 较大,其平方值 w i 2 w_i^2 wi2 会显著增大正则项的值。较大的 λ \lambda λ会放大这种惩罚,直接抑制权重的增长。
情况分析
当 λ = 0 \lambda = 0 λ=0,目标函数退化为为原始损失 m i n l ( w , b ) min\;l(w,b) minl(w,b),模型只关注最小化训练误差,可能学习到复杂的权重组合,导致过拟合。
当 λ = 10 \lambda=10 λ=10,正则项占主导地位,模型必须显著减小权重以最小化目标函数。权重被迫趋近于0,模型退化为简单函数,可能欠拟合。如果 λ − > ∞ \lambda -> \infty λ−>∞,那么 w ∗ − > 0 w^* ->0 w∗−>0。

优化过程
在梯度下降中,时间t的权重更新公式为: w t + 1 ← w t − η ( ∂ l ( w t , b ) ∂ w t + λ w t ) = ( 1 − η λ ) w t − η ∂ l ( w t , b ) ∂ w t w_{t+1}←w_t−η(\frac{∂l(w_t,b)}{∂w_t}+λw_t) = (1-η\lambda)w_t - η\frac{∂l(w_t,b)}{∂w_t} wt+1←wt−η(∂wt∂l(wt,b)+λwt)=(1−ηλ)wt−η∂wt∂l(w<

最低0.47元/天 解锁文章
1360

被折叠的 条评论
为什么被折叠?



