【机器学习】Lasso回归（L1正则，MAP+拉普拉斯先验）

最新推荐文章于 2025-06-19 10:41:09 发布

zhaosarsa

最新推荐文章于 2025-06-19 10:41:09 发布

阅读量6.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习数学算法最优化

本文链接：https://blog.youkuaiyun.com/qq_32742009/article/details/81674021

机器学习同时被 3 个专栏收录

48 篇文章

订阅专栏

算法

39 篇文章

订阅专栏

数学

24 篇文章

订阅专栏

本文介绍了Lasso回归的基本原理，包括其如何通过引入L1正则化来防止过拟合，并达到特征选择的目的。同时，文章还探讨了拉普拉斯分布与Lasso回归的关系，以及在不可导情况下的优化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

目前这个方法还没有一个正规的中文名，如果从lasso这个单词讲的话，叫套索。那么套索是啥呢，就是套马脖子的东西，见下图：

å¥ç´¢

就是拿这个东西把动物脖子套住，不要它随便跑。lasso 回归就是这个意思，就是让回归系数不要太大，以免造成过度拟合（overfitting）。所以呢，lasso regression是个啥呢，就是一个回归，并且回归系数不要太大。

具体的实现方式是加了一个L1正则的惩罚项。

拉普拉斯分布

在概率论与统计学中，拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起，所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动，所以它遵循拉普拉斯分布。

如果随机变量的概率密度函数为：

那么它就是拉普拉斯分布。记为：

$x\sim Laplace(\mu,b)$

其中，是位置参数，是尺度参数。

与正态分布有一些差别。在均值处变化的相当迅速。

数字特征：

MAP概率推导

推导方式与贝叶斯线性回归类似贝叶斯线性回归（最大后验估计+高斯先验）

对于线性回归 $y_i=h_\theta(x_i)=w^Tx_i$ ，有 $t_i=y_i+\epsilon _i$

记误差 $\epsilon \sim N(0,\sigma_\epsilon ^2)\sim N(0,\alpha^{-1})$ ，则 $t\sim N(y=h_\theta(x),\sigma_t^2)\sim N(w^Tx,\beta^{-1})$

对参数 $w$ 的分布加入先验分布信息（注不加任何先验就是普通的线性回归）， $w\sim Laplace(0,{1\over \lambda})$

$p(w|x,t)={p(t|x,w)\cdot p(w) \over p(t)}$

可以得到MAP方程：

$\begin{align*} \arg\max\limits_{w}L(w)&=likelihood\times prior\\ &=P(x,y|w)\times P(w)\\ &={\prod_{i=1}^m{\sqrt{{\beta \over 2\pi}}}\exp({-\beta (t-w^Tx_i)^2\over 2})\cdot \prod_{j=1}^n\frac{\lambda}{2}\exp(-\lambda|w_j|)}\\ \end{align*}$

取对数得：

$\begin{align*} \arg\max\limits_{w}\ell(w)&=\ln L(w)\\ &=\ln\left [ {\prod_{i=1}^m{\sqrt{{\beta \over 2\pi}}}\exp({-\beta (t-w^Tx_i)^2\over 2})\cdot \prod_{j=1}^n\frac{\lambda}{2}\exp(-\lambda|w_j|)} \right ]\\ &=\ln\prod_i^m+\ln\prod_j^n\\ &=\sum_i^m\ln+\sum_j^n\ln\\ &=\sum_i^m\left [{1\over 2}\ln {\beta \over 2\pi}-{\beta \over 2}(t-w^Tx_i)^2 \right ]+ \sum_j^n\left [ \ln {\lambda \over 2}-\lambda\left | w_j \right | \right ]\\ &= -{\beta \over 2}\sum_i^m(t-w^Tx_i)^2-\lambda\sum_j^n \left | w_j \right | + \sum_i^m{1\over 2}\ln {\beta\over 2\pi}+\sum_j^n\ln {\lambda \over 2}\\ &=-{\beta \over 2}\sum_i^m(t-w^Tx_i)^2-\lambda\sum_j^n \left | w_j \right | +constant \end{align*}$

上面的所有 $t$ 都应改为 $t_i$ ，记 $T$ 为 $t$ 的集合。

等价于：

$\begin{align*} \arg\min\limits_w\ell(w)&=\sum_i^m(t_i-w^Tx_i)^2+\lambda\sum_j^n\left | w_j \right |\\ &= (T-XW)^2+\lambda\left \| W \right \|_1\\ &= \left \| T-XW \right \|^2_2 + \lambda\left \| W \right \|_1 \end{align*}$