深度学习可能存在过拟合问题——高方差,有两个解决办法,一是正则化,另一个是准备更多的数据,但由于无法时时刻刻准备足够多的训练数据或者获取数据的成本高,所以通常使用正则化的方法来避免过拟合。
正则化的主要方法有:
- L2正则化
- dropout
- 数据增广
- early stopping
- Bagging
- 在样本中增加噪声
本篇博客先介绍L2正则化
1. L2正则化公式及参数更新
我们代价函数中加入正则化,只需添加参数λ,也就是正则化参数。得到:
L2正则化:

记作:

使用梯度下降法进行参数更新:

该正则化项表示,无论w是什么,都试图让它变得更小。相当于给每个矩阵前面都成了一个系数(1-α λ/m),该系数小于1,因此L2范式也被称为“权重衰减”。也就是相对于未正则化之前的参数,L2正则化减小的是参数w的一个比例。

本文探讨深度学习中的过拟合问题及其解决方案,重点介绍了L2正则化和L1正则化的工作原理,包括它们如何帮助避免过拟合,以及两者之间的区别。通过对比L1和L2正则化,理解它们在参数更新过程中的不同作用。
最低0.47元/天 解锁文章
714

被折叠的 条评论
为什么被折叠?



