深度学习_正则化方法原理

最新推荐文章于 2024-04-21 15:59:46 发布

Stan_Ray

最新推荐文章于 2024-04-21 15:59:46 发布

阅读量2.3k

点赞数 6

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/qq_37388518/article/details/115531621

版权

1 篇文章

订阅专栏

1. 正则化方法的原理

一般进行有数据集的训练的时候，往往对于一个训练集合，如果一直采用同一个函数会产生对训练集依赖的效果，往往会增加其验证集的误差，这叫做数据的过拟合，我们需要打破这种过拟合状态，增强函数的泛化能力，其实就是使得函数不断向最优解靠拢，而不对该数据集产生依赖，产生稀疏的数据点，使得整个模型具有更好的可解释性
那么如何产生这种效果呢：需要正则化相关的知识，正则化其实就是对原函数添加一个惩罚函数，即损失函数，每次为函数赋值数据集中数据点的时候，通过对原函数的相关参数加一定的惩罚函数（惩罚参数），来使得函数逐渐逼近于我们想要的最优解，并且在不同的情况可以相应改变这个惩罚参数，使得模型训练出来的数据会更加稀疏，更加合理，不会使得模型逼近于某一块区域
这里面可以采用一个公式来体现这个正则化的概念：
通过向目标函数里面添加一个惩罚参数 $\Omega(\theta)$ ，来降低模型的分布集中化，使得模型的数据点尽可能的稀疏，将正则化之后的损失函数记为 $\tilde{J}$ :

$\tilde{J}(\theta;X,y) = J(\theta;X,y) +\alpha\Omega(\theta)$
其中 $\alpha\in[0,+\infty)$ 是惩罚项的权重，越大的 $\alpha$ 对应越来越多的正则化程度。

L2参数正则化通过向目标函数中添加一个正则项 $\Omega ( \theta ) = \frac { 1 } { 2 } | w | ^ { 2 }$ ，这里的 $w$ 指的是一个矩阵，代表所有连接点之间的权重，该正则化主要针对权重加正则化，使得权重更加接近0点，又称权重衰减正则化方法，又称岭回归
通过L2参数正则化之后的模型具有以下总的目标函数：

$\frac { \alpha } { 2 } w ^ { T } w + J ( w ; X , y )$
其中 $\alpha$ 代表正则化的权重，越大表示正则化越强，是调整每次正则化强度的控制参数

$\nabla _ { w } J_1 ( w ; X , y ) = \alpha w + \nabla _ { w } J ( { w }; X , y )$

$\gets w - \epsilon ( \alpha w + \nabla _ { w } J ( w ; X , y ) )$

$\gets (1 - \epsilon\alpha)w - \epsilon \nabla _ { w } J ( w ; X , y ) )$

从上式子可以看出，对于权重加入惩罚参数之后，即加入权重衰减之后会引起学习规则的改变，会导致在每次执行原来的梯度更新之前先收缩权重向量（即将权重向量每个参数乘一个常数因子）

由于 $\epsilon$ 、 $\alpha$ 都是正数，加了这个正则化因子之后，模型比之前没加的权重都要小

下面对于这种正则化方法进行举例说明：
如果 $J$ 是一个二次优化的函数问题，模型参数都可以表示为 $\overline{w} = \frac { \lambda _ { i } } { \lambda _ { i } + \alpha } w _ { i }$
即将原来的参数上面加一个控制因子，其中 $\lambda_{i}$ 是参数Hessian矩阵的特征值。
由上式子观察可以得出

当 $\lambda_{i} \gg\alpha$ 时，惩罚因子 $\overline{\omega}$ 的作用比较小
当 $\lambda_{i} \ll\alpha$ 时，惩罚因子会变成0
`

通过L2正则化，可以使得参数 $\omega$ 在零点附近，可以加快收敛，降低函数的优化次数，通过这种方法，采用范数控制参数，可以改变本来收敛很缓慢的函数，比如sigmod激活函数，其满足单调有界准则，根据单调有界定理，

$\forall\eta >0(这里面\eta足够小)，我们可以取得足够大的z_0，使得f^{\prime}(z)<\eta(z_0<z)$ ，

即对于这个单调有界的激活函数，我们可以在一个特别大的区域内 $（z_0,+\infty）$ 找到一个导数逼近于0的点，但是这样的改变方法会使得函数优化算法收敛变得十分缓慢，但是通过范数控制可以让参数大小控制在0附近，可以避免上面这种情况，在很大程度上加快收敛。

$\Omega ( \theta ) = | | w | | _ { 1 } = \sum _ { i } | w _ { i } |$

$J(\omega;X,y)=\alpha|\omega|_i+J(\omega;X,y)$

$\nabla_\omega\tilde{J}(\omega;X,y)=\alpha sign(\omega)+\nabla_\omega J(\omega;X,y)$

其中sign函数是代表各个 $\omega$ 的符号
通过上面这个梯度，可以观察出正则化对于梯度的影响不再是线性的缩放每一个 $\omega_i$ 矩阵，而是给每一项添加了与 $sign(\omega_i)$ 同号的常数
可以看出权重的更新规则变成，比原始的更新规则多出来了

$\frac{\lambda}{n}\sum{\omega_i}sign(w_i)$ 这一项,

其中 $\frac{\lambda}{n}$ 就是对正则化参数控制的变量。当 $\omega$ 为正数的时候，更新之后的 $\omega$ 变小。当 $\omega$ 为负数的时候，更新之后的 $\omega$ 变大，因此这个正则化的效果就是让 $\omega$ 向0靠拢，使得网络之中的权重尽可能的为0，即减少网络复杂度，防止过拟合