【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)

本文介绍了Lasso回归的基本原理,包括其如何通过引入L1正则化来防止过拟合,并达到特征选择的目的。同时,文章还探讨了拉普拉斯分布与Lasso回归的关系,以及在不可导情况下的优化方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

目前这个方法还没有一个正规的中文名,如果从lasso这个单词讲的话,叫套索。那么套索是啥呢,就是套马脖子的东西,见下图: 

å¥ç´¢

就是拿这个东西把动物脖子套住,不要它随便跑。lasso 回归就是这个意思,就是让回归系数不要太大,以免造成过度拟合(overfitting)。所以呢,lasso regression是个啥呢,就是一个回归,并且回归系数不要太大。

具体的实现方式是加了一个L1正则的惩罚项。

拉普拉斯分布

在概率论与统计学中,拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。

如果随机变量的概率密度函数为:

那么它就是拉普拉斯分布。记为:

其中,是位置参数,是尺度参数。

与正态分布有一些差别。在均值处变化的相当迅速。

数字特征:

MAP概率推导

推导方式与贝叶斯线性回归类似贝叶斯线性回归(最大后验估计+高斯先验)

对于线性回归y_i=h_\theta(x_i)=w^Tx_i,有t_i=y_i+\epsilon _i

记误差,则

对参数w的分布加入先验分布信息(注不加任何先验就是普通的线性回归),w\sim Laplace(0,{1\over \lambda})

可以得到MAP方程:

取对数得:

上面的所有t都应改为t_i,记Tt的集合。

等价于:

至此,我们已经通过MAP最大后验估计加上对于参数w的Laplace先验分布得到了带L1正则项的线性回归目标函数。

正则项的意义

对于上面的目标函数,我们还可以写成以下这种带约束条件的形式:

妙处就在这个地方,在第一范数的约束下,一部分回归系数刚好可以被约束为0。这样的话,就达到了特征选择的效果。至于为什么大家可以看看下图 (在岭回归(L2正则在干嘛!)中有介绍过了)。

èæ°

不再详细解释了,如果有需要可以参阅之前的博客。

L1正则项不可导的梯度下降方法

对于凸函数不可导的情形,如L1正则项在0点处不可导,我们可以使用坐标下降法或者次梯度方法。

 

参考文章:

Sparsity and Some Basics of L1 Regularization

Lasso回归的坐标下降法推导

Lasso回归是一种线性回归模型,它通过添加L1正则化项来实现变量选择,即将某些系数置零,以达到减少模型复杂度、避免过拟合的效果。在Lasso回归中,优化目标包括了数据误差的平方和以及惩罚项,可以表示为: \[ \min_\beta \left\{ \frac{1}{2n} \Vert y - X\beta \Vert^2_2 + \lambda \Vert \beta \Vert_1 \right\} \] 这里的\( \lambda \)正则化强度,\( \beta \)是模型参数,\( y \)是响应变量,\( X \)是设计矩阵。 Laplace(或双指数)分布是一种概率分布,其概率密度函数(PDF)形式为: \[ p(x; \mu, b) = \frac{b}{2} e^{-|x-\mu|/b} \] 其中 \( \mu \) 是位置参数,\( b \) 是尺度参数,对应于分布的形状。 将Lasso回归看作是对回归参数\( \beta \)施加Laplace先验的一个方法,我们可以这样理解: - 数据误差项\( \frac{1}{2n} \Vert y - X\beta \Vert^2_2 \)类似于均值的二次偏差,这对应于Laplace分布的中心部分; - L1正则化项\( \lambda \Vert \beta \Vert_1 \)可以看作是每个参数\( \beta_j \)的绝对值的平均,这相当于对\( \beta \)的每一个分量应用了Laplace分布的概率密度函数,特别是当参数接近0时,L1惩罚使得分布倾向于集中在0附近。 实际上,当我们使用最大似然估计(MLE)来估计Lasso的参数时,如果将L1惩罚项看作是每个参数的Laplace先验的似然贡献,并假设误差项独立同分布,那么最小化似然函数的过程就等价于寻找使得数据误差最小同时满足L1正则化的\( \beta \)。换句话说,Lasso回归是在数据驱动和先验知识(拉普拉斯分布)之间找到了平衡点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值