keras搬砖系列-正则化

最新推荐文章于 2024-05-31 08:43:31 发布

原创

最新推荐文章于 2024-05-31 08:43:31 发布 · 6.3k 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了Keras中的正则化，包括L1和L2正则化的概念及区别。L2正则化通过权重衰减防止过拟合，而L1正则化使模型变得稀疏但不直接用于模型压缩。正则化是减少模型方差的有效方法，通过调整正则化参数λ可以在偏差和方差之间找到平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

keras搬砖系列-正则化

1，正则化简介
以逻辑回归来对正则化进行介绍
逻辑回归原来的代价函数为：
$\min_{w,b}J(w,b)=\min_{w,b}\frac{1}{m}\sum^m_{i=1}\mathcal L(\hat y^{(i)},y^{(i)})$
其中： $w∈\Bbb R^{n_x}, b∈\Bbb R$
加入正则化为：
$J(w,b)=\frac{1}{m}\sum^m_{i=1}\mathcal L(\hat y^{(i)},y^{(i)})+\frac {\lambda}{2m}||w||^2_2$
其中：
$||w||^2=\sum^{n_x}_{j=1}=w^Tw$
上述式子为L2正则化
正则化是一种非常实用的减少方差的方法，正则化时会出现偏差方差权衡问题，偏差可能会进行增加。如果网络足够大的时候，增幅通常不会太高。人们通常会用交叉验证集来选择正则化参数λ
通常来说：损失函数是单个样本的误差，成本函数是所有训练样本的误差。
2，L1正则化使得模型变得稀疏，是否有利于模型压缩
实际上L1正则化使得模型变得稀疏，但是没有太多存储内存，因为参数个数没有变，所以L1正则化目标不是为了模型压缩
3，为什么L2正则化被称作权重衰减
来看成本函数，包含了w[1],b[1]到w[L],b[L]的所有函数，L是神经网络的所含有的层数，定义如下：
J(w[1],b[1],...,w[L],b[L])=1m