为了防止训练的模型过拟合,则提出了一种结局办法,就是损失函数里面加入正则化
正则化有2个:
L1 = ||Wj|| 相加
L2=||Wj的平方||相加
对比:
1.L1容易产生稀疏矩阵,所谓参数变得更稀疏 是指会有更多的参数变为0,这样可以达到类似特征选取的功能
2.L1 不可导,计算更复杂;L2可导,计算更加简洁。
在实践中,这两个可以一起使用
为了防止训练的模型过拟合,则提出了一种结局办法,就是损失函数里面加入正则化
正则化有2个:
L1 = ||Wj|| 相加
L2=||Wj的平方||相加
对比:
1.L1容易产生稀疏矩阵,所谓参数变得更稀疏 是指会有更多的参数变为0,这样可以达到类似特征选取的功能
2.L1 不可导,计算更复杂;L2可导,计算更加简洁。
在实践中,这两个可以一起使用