正则化作用:
最小化误差:拟合训练数据,
正则化参数:防止模型过分拟合训练数据,通常使用 L2正则化
L0:0范数,扰动 非0元素的个数
L1:1范数,各元素的绝对值之和
L2: 2范数,平方和再开方,通常用2范数来衡量扰动的程度
L无穷:无穷范数,各元素的绝对值的最大值,表示扰动的最大值
其他的正则化方法:
-
dropout 丢弃法:每个神经元都有可能被丢掉,因此模型训练的时候,模型不敢给任何神经元过大的参数
-
early-stopping
批规范化 Batch Normalization
对数据做批规范化,使得数据满足均值为0,方差为1的正态分布。
主要作用是:缓解DNN训练中的 梯度消失 / 梯度爆炸现象,加快模型的训练速度。
通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样把输入的分布变窄(固定在[-1,1]),但是让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。

本文深入探讨了正则化技术,包括L0、L1、L2及L无穷范数,dropout丢弃法和early-stopping等,旨在防止模型过度拟合。特别介绍了批规范化(BatchNormalization)的作用,如提升训练速度、改善分类效果和简化调参过程。批规范化通过将数据标准化至均值为0、方差为1的分布,有效缓解梯度消失/爆炸问题。
1111

被折叠的 条评论
为什么被折叠?



