1、最小二乘回归、Lasso、岭回归

回归算法实践：Lasso与Ridge对比分析

最新推荐文章于 2024-04-22 14:24:51 发布

原创最新推荐文章于 2024-04-22 14:24:51 发布 · 1.8k 阅读

9 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文介绍了回归算法中的最小二乘回归、Lasso回归、Ridge岭回归和ElasticNet弹性网，并通过sklearn库进行了数据集上的代码演示，包括数据预处理、模型训练和预测。针对工具钢和模具钢数据集，应用Lasso和Ridge进行硬度性能预测，展示了初步的结果图，分析了两种回归模型的MSE损失和特征系数。尽管损失较大，但为后续调参和结果优化提供了基础。

理论知识

1、最小二乘回归

假设有m个特征，n个样本点，则输入数据为：
在这里插入图片描述
于是可以得到：

由此我们计算得到的损失为：

优化w，对w求偏导得：

由此可以得到：

上述公式共包含有逆矩阵，而逆矩阵存在得前提是该矩阵为满秩矩阵。但实际中得特征矩阵往往不是满秩矩阵，此时可利用加正则化的数学方法进行改进。

2、Lasso回归

加上一个L1范数惩罚：
在这里插入图片描述

3、Ridge岭回归

加上一个L2范数惩罚：
在这里插入图片描述

4、Elastic Net 弹性网

加上一个L1和L2范数惩罚：
在这里插入图片描述

代码演示

利用机器学习库sklearn进行代码演示与调参，编译器选择jupyter notebook。

1、数据集的获取

想要获取数据集请点击这。选择工具钢和模具钢相关的数据集，部分截图见下图：
在这里插入图片描述
共360行20列数据，我们首先以硬度性能指标，对该数据进行Lasso回归和Ridge回归。

2、代码实操

第一步：导入相关库并从数据集中提取自己需要的特征列和标签列

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Lasso,Ridge
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

X = data.iloc[:,3:16]
X

显示结果如下：
在这里插入图片描述

y1 = data.loc[:,['Hardness']]
y1

在这里插入图片描述
第二步：对数据进行标准化处理

scaler = StandardScaler()
X = scaler.fit_transform(X)
X

特征标准化后的显示结果如下：
在这里插入图片描述

y1 = scaler.fit_transform(y1)
y1

标签标准化后的显示结果如下：
在这里插入图片描述
第三步：划分训练集和测试集并查看大小

X_train, X_test, y_train, y_test = train_test_split(X, y1,test_size=0.3)

在这里插入图片描述
第四步：利用Lasso算法进行回归分析

lasso = Lasso(alpha=0.001)
lasso.fit(X_train,y_train)
y_lasso = lasso.predict(X_test)
np.savetxt('lasso_predict.csv',y_lasso,delimiter=',')
plt.scatter(y_test,y_lasso)
plt.show()

初步显示结果图如下：
在这里插入图片描述
第五步：利用Ridge算法进行回归分析

ridge = Ridge(alpha=0.3)
ridge.fit(X_train,y_train)
y_ = ridge.predict(X_test)
np.savetxt('ridge_predict.csv',y_,delimiter=',')
plt.scatter(y_test,y_)
plt.show()