岭回归和套索回归

最新推荐文章于 2025-03-27 20:12:14 发布

xsj2191139968

最新推荐文章于 2025-03-27 20:12:14 发布

阅读量1.1k

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/xsj2191139968/article/details/127603966

版权

岭回归和Lasso回归是解决线性回归中的多重共线性问题的方法。岭回归通过引入正则化项改善计算，但无法使系数为0。Lasso回归则能进行特征选择，通过L1范数惩罚项使不重要变量系数趋于0。在Stata中，lassopack提供了实现Lasso回归的子命令，如lasso2、cvlasso和rlasso。K折交叉验证用于选择最佳调整参数。在实际应用中，Lasso回归通常作为变量筛选的高级工具，适用于变量较多且可能存在多重共线性的情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

岭回归
优点：有显式的解
缺点：对于影响很小的因子的值不能趋近到0

Lasso回归
优点：可以将影响很小的因子的值减到0，更加便于筛选
缺点：没有真实的解，只能逼近和估计解

Stata的使用
在 Stata 中，我们可以安装 lassopack 命令来实现 Lasso 回归，Lassopack 包含三个与 Lasso 相关的子命令（输入 help lassopack 可以查看详情）： ‐ 子命令 lasso2 可进行 Lasso 估计； ‐ 子命令 cvlasso 可进行 K 折交叉验证（k‐fold cross validation）； ‐ 子命令 rlasso 可以估计惩罚项由数据决定或者高维情形（变量维度超过样本数）

K 折交叉验证
我们使用 K 折交叉验证的方法来选择最佳的调整参数。

所谓的 K 折交叉验证，是说将样本数据随机分为 K 个等分。将第 1 个子样本作为 “验证集”（validation set）而保留不用，而使用其余 K-1 个子样本作为 “训练集”（training set）来估计此模型，再以此预测第 1 个子样本，并计算第1个子样本的 “均方预测误差”（Mean Squared Prediction Error）。

其次，将第 2 个子样本作为验证集，而使用其余 K-1 个子样本作为训练集来预测第2个子样本，并计算第 2 个子样本的 MSPE。

以此类推，将所有子样本的 MSPE 加总，即可得整个样本的 MSPE。最后，选择调整参数，使得整个样本的 MSPE 最小，故具有最佳的预测能力