L1、L2正则化与稀疏性

cy^2

已于 2022-04-11 22:10:57 修改

阅读量2.3k

点赞数 1

分类专栏：机器学习文章标签：机器学习

于 2022-03-28 22:51:48 首次发布

本文链接：https://blog.youkuaiyun.com/qq_34120015/article/details/123805679

版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

禁止转载，谢谢！

1.正则化（Regularization）的基本概念

- 什么是正则化/如何进行正则化

定义：在机器学习中正则化（regularization）是指在模型的损失函数中加上一个正则化项，也称为惩罚性（penalty term）：
$\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))+\lambda J{(f)}$
其中L为损失函数，J为正则化项， $\lambda \ge 0$ 是系数，用以权衡经验风险和模型复杂度。通常来说，正则化项往往是关于模型参数的1-范数或者2-范数；也有这两者的某种结合，例如sklearn的逻辑回归中的弹性网正则化项。

参数向量的l2范数：
$\frac{1}{N}\sum^{N}_{i=1}(y_i,f(x_i;w))^2+\frac{\lambda}{2}\parallel{w}\parallel^2$
$\parallel{w}\parallel^2$ 表示向量参数w的l2范数。
参数向量的l1范数：
$\frac{1}{N}\sum^{N}_{i=1}(y_i,f(x_i;w))^2+\lambda \parallel{w}\parallel$
${w}\parallel$ 表示向量参数w的l1范数。
为何需要正则化

一般来说，正则化核心的作用是缓解模型过拟合倾向，此外，由于加入正则化项后损失函数的形体发生了变化，因此也会影响损失函数的求解过程，在某些时候，加入了正则化项之后会让损失函数的求解变得更加高效。如岭回归，其实就是在线性回归的损失函数基础上加入了w的1-范数，而Lasso则是加入了w的2-范数。并且，对于逻辑回归来说，如果加入 $l 2$ 正则化项，损失函数就会变成严格的凸函数。

正则化符合奥卡姆剃刀（Occam‘s razor）原理：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型；从贝叶斯估计的角度来看，正则化项对应于模型的先验概率，可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

正则化是如何缓解过拟合倾向

过拟合（over-fitting）是指学习时选择的模型所包含的参数过多，以至出现这一模型对已知数据预测得很好，但因为训练数据本身存在噪音，因存在对未知数据预测很差的现象。

在构建损失函数求最小值的过程，其实就是依据以往经验（也就是训练数据）追求风险最小（以往数据误差最小）的过程，而在给定一组参数后计算得出的损失函数的损失值，其实就是经验风险。而所谓结构风险，我们可以将其等价为模型复杂程度，模型越复杂，模型结构风险就越大。而正则化后的损失函数在进行最小值求解的过程中，其实是希望损失函数本身和正则化项都取得较小的值，即模型的经验风险和结构风险能够同时得到控制。

模型的经验风险需要被控制不难理解，因为我们希望模型能够尽可能的捕捉原始数据中的规律，但为何模型的结构风险也需要被控制？核心原因在于，尽管在一定范围内模型复杂度增加能够有效提升模型性能，但模型过于复杂可能会导致另一个非常常见的问题——模型过拟合，但总的来说，一旦模型过拟合了，尽管模型经验风险在降低、但模型的泛化能力会下降。因此，为了控制模型过拟合倾向，我们可以把模型结构风险纳入损失函数中一并考虑，当模型结构风险的增速高于损失值降低的收益时，我们就需要停止参数训练（迭代）。

L1正则化为什么使得模型参数具有稀疏性呢

稀疏性：模型的很多参数为0，相当于对模型进行了一次特征选择，只留下一下比较重要的特征，提高模型的泛化能力。降低过拟合的可能。

（1）解空间形状

在二维的情况下，黄色的部分是L2和L1正则项约束后的解空间，绿色的等高线是凸优化问题中目标函数的等高线，由图可知，L2正则项约束后的解空间是圆形，而L1正则项约束的解空间是多边形，而多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。
在这里插入图片描述

问题引入：为什么加入正则项就是定义了解空间呢？为什么L1和L2的解空间是不同的呢？

事实上，“带正则项”和“带约束条件”是等价的，为了约束w的可能取值空间从而防止过拟合，在最优化问题加上一个约束，就是w的L2范数的平方不能大于m:
$\left\{ \begin{aligned} min \sum^N_{i=1}(y_i - w^Tx_i)^2 \\ s.t ||w||_2^2 \le m \end{aligned} \right.$
为了求解带约束条件的凸优化问题，引入拉格朗日函数：
$\sum^N_{i=1}(y_i - w^Tx_i)^2 + \lambda( ||w||_2^2-m)$
若 $w^*$ 和 $\lambda^*$ 分别是原问题和对偶问题的最优解，则根据KKT条件，它们用满足：
$\left\{ \begin{aligned} 0 = \nabla _w （ \sum^N_{i=1}(y_i - w^{*T}x_i)^2+ \lambda^*( ||w^*||_2^2-m) \\ 0 \le \lambda^* \end{aligned} \right.$

由以上式子可得： $w^*$ 为带L2正则项的优化问题的最优解的条件，而 $\lambda^*$ 就是L2正则项前面的正则参数。L2正则化相当于为参数定义了一个圆形的解空间（因为必须保证L2范数不能大于m）,而L1正则化相当于为参数定义了一个菱形的解空间。如果原问题目标函数的最优解不是恰好落在解空间内，那么约束条件下的最优解一定是在解空间的边界上，而L1棱角分明的解空间更容易与目标函数等高线在角点碰撞，从而产生稀疏解。

（2）贝叶斯先验 ( $\frac{P(y|x)\cdot P(x)}{P(y)}$ )

从贝叶斯的角度来理解L1正则化和L2正则化，L1正则化相当与对模型参数w引入了拉普拉斯先验，L2正则化相当引入了高斯先验，而拉普拉斯先验使参数为0的可能性更大。

对于给定样本，目标是希望最大化后验概率，即从贝叶斯定理得：
$\begin{aligned} w_{optim} &=argmax P(w|x,y) \\ &= \frac{P(y,x|w)\cdot p(w)}{P(x,y)} \\ & \varpropto_{max} p(y,x|w)\cdot\ p(w) \end{aligned}$
假设样本统计独立：即
$\begin{aligned} w_{optim}&=argmax[\prod^m_{i=1}P(y^i,x^i|w)]\cdot P(w) \\ & 由条件概率链式法则 \\ &= [\prod^m_{i=1}P(y^i|x^i,w)P(x^i|w)]P(w) \\ & x与w无关\\ &= [\prod^m_{i=1}P(y^i|x^i,w)P(x^i)]P(w) \\ & P(x^i) 为常数\\ &= [\prod^m_{i=1}P(y^i|x^i,w)]P(w) \\ &= ln[\prod^m_{i=1}P(y^i|x^i,w)]+ logP(w) \\ &= \sum^m_{i=1}lnP(y^i|x^i,w)+ lnP(w) \\ &令G(w)= L(w) + ln\pi(w) \end{aligned}$
(1) 证明：视w为随机变量，假定其服从高斯分布 $w\thicksim G(0,\sigma^2)$ ,即 $\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{w^Tw}{2\sigma^2}}$
$\begin{aligned} ln\pi(w) &=ln\prod^m_{i=1}\pi(w_i)\\ &= ln\prod^m_{i=1}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{w^2_i}{2\sigma}}} \\ &=ln(\frac{1}{\sqrt{2\pi}\sigma})^me^{-\frac{\sum^m_{i=1}w^2_i}{2\sigma^2}}\\ &=-mln\sqrt{2\pi}\sigma -\frac{\sum^m_{i=1}w^2_i}{2\sigma^2}\\ &\approx -\frac{\sum^m_{i=1}w^2_i}{2\sigma^2}\\ \end{aligned}$
则
$\begin{aligned} G_{min}(w)&= min[L(w) + ln\pi(w)]\\ &= minJ(w)+min[\frac{1}{2\sigma}\sum^m_{i=1}w^2_i+C] \\ &= minJ(w)+min[\frac{1}{2\sigma}\sum^m_{i=1}w^2_i] \to l2正则化\\ \end{aligned}$
(2)证明：w服从拉普拉斯分布 $w\thicksim la(0,\beta)$ ,即
$\frac{1}{\sqrt{2\beta}} e^{-{\frac{|w|}{\beta}}}$
则 $ln\pi(w)$
$\begin{aligned} ln\pi(w) &=ln \sum^m_{i=1}\pi(w_i)\\ &= ln\prod^m_{i=1} \frac{1}{\sqrt{2\beta}} e^{-{\frac{|w|}{\beta}}} \\ &=ln(\frac{1}{\sqrt{2\beta}})^me^{-\frac{|w_i|}{\beta}}\\ &=-mln(2\beta) - \frac{1}{\beta}\sum^m_{i=1}|w_i| \end{aligned}$
所以armax lnG(w) = $L(w)+ln\pi(w)=l(w) - [\frac{1}{\beta}\sum^m_{i=1}|w_i|+C]$
则min $[L(w)+\frac{1}{\beta}\sum^m_{i=1}|w_i|] \to l1正则化$