正则化
花书的定义:凡是可以减少泛化误差(过拟合)而不是减少训练误差的方法,都叫正则化方法。
目的:拟合训练数据,防止模型过拟合,通常使用L2正则化.用各种方法规范模型参数的方法.
什么是神经网络的过拟合:
在最小化损失函数的前提下,最优的一组w和b并不是唯一的。最后的最优的w和b是什么很依赖你输入的初始w和b。若初始过大,则最优的也相对较大。
所以,如何我们只在训练集里使用我们的神经网络,则w和b是大是小都没有太大关系,但要在一个新的测试集里使用我们的神经网络,那新数据在和这个较大的参数相乘后会得到一个比较大的数值。如果没有误差,没有噪声,这一切看起来也没有问题,但这是不可能的,所以这个误差和噪声在经过大的权重相乘后也会被放大,这就很容易对判断结果造成影响。
所以我们的目的是控制参数范围,不让它过大(正则化的目的):
我们重点约束w就行,因为最后的模型过拟合还是不过拟合,重点还是在w身上,所以正则化重点考虑w。更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀)
L1正则化
L1损失函数如下,首先,L1是通过稀疏参数(减少参数的数量)来降低复杂度 :

上式可知,当w大于0时,更新的参数w变小;当w小于0时,更新的参数w变大;所以,L1正则化容易使参数变为0,即特征稀疏化

博客围绕神经网络正则化展开,介绍其目的是防止模型过拟合,重点约束参数w。详细阐述了L1、L2正则化及Lp范数,对比了L0与L1、L1与L2的区别和适用场景,还从拉格朗日对偶和权重衰减角度理解正则化,指出正则化可减少过拟合但会使损失函数有误差。
最低0.47元/天 解锁文章
2284





