机器学习(四)变量选择技术----------岭回归,Lasso

本文介绍了机器学习中的变量选择技术,重点关注岭回归和Lasso算法。岭回归通过引入惩罚函数避免参数过大,常用于判断多重共线性;Lasso则进一步优化惩罚函数,使部分参数可能为0,适用于变量筛选。LAR算法作为Lasso的有效解法,通过逐步加入变量并找到最优解。Cp指标用于确定最佳变量数量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习(四)变量选择技术----------岭回归,Lasso

 

我们回顾一下之前线性回归模型里面的一元线性回归模型和多元线性回归模型,里面在谈论如何找到最佳系数时,使用的是最小二乘法,在这里我们先把多元线性回归的最小二乘解简化表达一下

这里可能会有疑问的是X的第一列代表是什么,为什么全是1,第一列代表截距项

多元线性回归的最小二乘解是无偏估计的,什么是无偏估计呢?简单来说就是通过很多次实验,其中可以通过加大样本数量得出的结果求均值可以无限接近真实值,后面我们讨论的岭回归和Lasso都是有偏估计

通过上面的最小二乘估计,我们会发现存在一些问题,其广义逆会存在奇异性(不稳定),下面是出现奇异性的两种情况

一般变量比样本多这种情况会比较少,出现多重共线性的情况会多一点

 

针对上面的问题,我们来介绍岭回归和Lasso

岭回归(Ridge Regression,RR)

其实岭回归在现实应用得很少,主要是Lasso用到了岭回归的知识

通俗来说就是引入一个惩罚函数,以至于不让系数太大,下面花红框的就是惩罚函数,(3.41)与(3.42)等价

几何意义(蓝色圈就是惩罚函数,与椭圆圈相交一点就是所求岭回归参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路易三十六

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值