防止过拟合:L2 Regularization(权重衰减)

L2正则化

  • 就是在原本的(成本、代价)损失函数后面加上一个正则化项。
  • L2正则化,也成为weight decay,权重衰减
    L2正则化是为了防止训练网络的时候出现“过拟合”,现在来理解一下网络的“欠拟合”与“过拟合”。
    数学上从两个角度来衡量一个变量的误差
  • 偏差bias
  • 方差variance
    神经网络中有
  • train error:训练误差,训练过程其实就是根据“损失”来动态调整模型参数。随机梯度下降SGD。BP。权重更新。
  • validate error:验证误差。在遗传算法中,评估个体适应度时,需要用到validate dataset。
  • 在训练网络时,用train error和validate error来衡量是否过/欠拟合。
    偏差和方差的权衡
    前提:最优误差(贝叶斯误差):假设人的肉眼识别图像几乎假设误差为0%,且假设训练集和测试集服从同分布。。
    欠拟合—偏差(bias)过高,适度拟合,过拟合—high variance高方差
    Train set error:偏差 1% | 15% |15%
    Dev set error:方差 11% | 16% |30%
    过拟合(high variance) | 欠拟合(high bias) |high bias&high variance
    high bias&high variance:可能是部分数据过拟合,但整体数据欠拟合。
    在这里插入图片描述
    防止过拟合的方法:
    (1)regularization正则化: L1,L2正则化,两者均是通过修正成本函数,使得权重矩阵范数较小,从而使得网络不会过于复杂。
    (2)数据增强(data augmentation)通过增加训练数据样本数
    (3)Dropout (:中途退学,【计算机】信息丢失)
    (4)Early stopping
    现在来详细解释一下L2正则化
    原本的成本函数后面加上的那一个项是L2范数。

    为啥L2正则化可以防止过拟合?推导过程
    公式:
    在这里插入图片描述
    L2范数规格化(也叫做weight dekay权重衰减):成本函数、L2范数、lambda规格化参数,lambda也是一个超参数,需要利用验证集或交叉验证法来确定。
    在这里插入图片描述
    现在假设激活函数是tanh()
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值