L1正则化、L2正则化的多角度分析和概率角度的解释_l1正则化和l2正则化公式-优快云博客

本文链接：https://blog.youkuaiyun.com/AiBigData/article/details/121566111

本文详细比较了L1和L2正则化的数学形式、梯度更新特性，解释了它们为何分别对应拉普拉斯和高斯先验。通过最大后验概率，阐述了两者在机器学习中作为权重分布的体现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

L1正则化、L2正则化的公式如下

$\min_wL_1(w)=\min_w f(w)+\frac{\lambda}{n}\sum_{i=1}^n|w_i|\\ \min_wL_2(w)=\min_wf(w)+\frac{\lambda}{2n}\sum_{i=1}^nw_i^2$

从优化问题的视角来看

$\min_xL(w)<=> \min_w f(w)\\ s.t. \sum_{i=1}^n|w_i|<C$

L1正则的限制条件，在坐标轴上显示则是一个正方形，与坐标轴的交点分别是(0,C),(C,0),(0,-C),(-C,0)

L2正则的限制条件，在坐标轴上显示则是一个圆，与坐标轴的交点分别是(0,C),(C,0),(0,-C),(-C,0)

在这里插入图片描述

从梯度视角来看

$\frac{\partial L_1(w)}{\partial w_i}=\frac{\partial f(w)}{\partial w_i}+\frac{\lambda}{n}sign(w_i)\\ w_i^{'}=w_i - \eta \frac{\partial L_1(w)}{\partial w_i}\\ w_i^{'}=w_i - \eta \frac{\partial f(w)}{\partial w_i} - \eta \frac{\lambda}{n}sign(w_i)$

$\frac{\partial L_2(w)}{\partial w_i}=\frac{\partial f(w)}{\partial w_i}+\frac{\lambda}{n}w_i\\ w_i^{'}=w_i - \eta \frac{\partial L_2(w)}{\partial w_i}\\ w_i^{'}=w_i - \eta \frac{\partial f(w)}{\partial w_i} - \eta \frac{\lambda}{n}w_i$
从L1 $\eta \frac{\lambda}{n}sign(w_i)$ 和L2 $\eta \frac{\lambda}{n}w_i$ 来看，L1与L2不一样的地方在于L1会减 $sign(w_i)$ 倍的 $\eta \frac{\lambda}{n}$ .而L2会减 $w_i$ 倍的 $\eta\frac{\lambda}{n}$ 。当w_i在 $[1,+\infty)$ 时，L2获得比L1更快的减小速率。当 $w_i$ 在(0,1)时，L1比L2获得更快的减小速率。并且当 $w_i$ 越小时，L1更容易减小接近于0.而L2更不容易变化，因此L1会获得更多的接近于0的w。即L1比L2更容易获得sparse的w。

从概率的视角来看

为f(w)加入正则化，相当于为f(w)的参数w加先验，那要求w满足某一分布。

L1正则化相当于为w加入Laplace分布的先验，L2正则化相当于为w加入Gaussian分布的先验

在这里插入图片描述

很明显可以观察出，在两边紫色部分， $P_G(w)<P_L(w)$ ，说明Gauss分布中，值大的w更少，即 $L_2与L_1$ 相比,值大的w更少，因此L2比L1更smooth。

在中间红色线条区域 $P_L(w)<P_G(w)$ 。并且结合图来看，Gauss分布中，值很小的w和值为0的w概率接近。而laplace分布中，值很小的w概率小于值为0的w.这说明Laplace分布要求w更多为0.而高斯分布要求w小就行不一定要为0。因此L1比L2更Sparse.

问题，为什么L1正则先验分布时Laplace分布，L2正则先验分布时Gaussian分布。接下来从最大后验概率的角度进行推导和分析。在机器学习建模中，我们知道了x和y以后，需要对参数w进行建模。那么后验概率表达式如下：
$MAP=log^{p(y|X)}=log^{P(y|X,w)P(w)}=log^{P(y|X,w)}+log^{P(w)}$
可以看出后验概率函数为在似然函数的基础上增加了 $log^{P(w)}$ ,P(w)的意义是对权重系数w的概率分布的先验假设，在收集到训练样本X，y后，则可根据w在X,y下的后验概率对w进行修正，从而做出对w的更好地估计。若假设w的先验概率分布为0均值的高斯分布，即 $w\sim N(0,\delta^2)$

则有
$log^{P(w)}=log^{\prod _j P(w_j)}=\\ log^{\prod_j[\frac{1}{\sqrt{2\pi}\delta}e^{-\frac{w_j^2}{2\delta^2}}]}\\ =\sum_j(log^{[\frac{1}{\sqrt{2\pi}\delta}e^{-\frac{w_j^2}{2\delta^2}}]})\\ =\sum_j(log^{[e^{-\frac{w_j^2}{2\delta^2}}]}) + j log^{\frac{1}{\sqrt{2\pi}\delta}} 后部分对于w相当于一个常数\\ =\sum_j(-\frac{w_j^2}{2\delta^2})+C\\ =-\frac{1}{2\delta^2}\sum_jw_j^2+C$
可以看出，在高斯分布下 $log^{P(w)}$ 的效果等价于在代价函数中增加L2正则项。

若假设w服从均值为0，参数为a的拉普拉斯分布，即
$P(w_j)=\frac{1}{2a}e^{-\frac{|w_j|}{a}}$
则有
$log^{P(w)}=\\ log^{\prod _j P(w_J)}=\\ log^{\prod _j \frac{1}{2a}e^{-\frac{\left| w_j \right|}{a}}}=\\ \sum_j(log^{\frac{1}{2a}e^{-\frac{\left| w_j \right|}{a}}})=\\ \sum_j(log^{e^{-\frac{\left| w_j \right|}{a}}}) + jlog^{\frac{1}{2a}} 后者对于w相当于常数=\\ -\frac{1}{a}\sum_j|w_j| + C$
可以看到，在拉普拉斯分布下 $log^{P(w)}$ 的效果等价在代价函数中增加L1正则。