一、前言
在《机器学习论文复现实战---linear regression》中通过Pearson 相关性分析,去除了2个高相关性特征 "PN" 和 "AN" ,数据维度变为890*25。(数据集地址)
这里我们不做如何前期处理,直接就将数据放入 ElasticNet 模型中进行训练了。
二、模型训练过程
2.1 导入Python库
'''====================导入Python库===================='''
import pandas as pd #python科学计算库
import numpy as np #Python的一个开源数据分析处理库。#
import matplotlib.pyplot as plt #常用Python画图工具
from sklearn.linear_model import ElasticNet # 线性回归 ElasticNet 模型
from sklearn.model_selection import train_test_split # 数据划分模块
from sklearn.preprocessing import StandardScaler # 标准化模块
from sklearn.model_selection import GridSearchCV # 超参数网格搜索
from sklearn.metrics import mean_squared_error,r2_score #误差函数MSE,误差函数R^2,
2.2 导入数据
'''========================导入数据========================'''
data = pd.read_excel('D:/复现/trainset_loop6.xlsx') #读取xlsx格式数据
# date = pd.read_csv('D:/复现/trainset_loop6.csv') #读取csv格式数据
print(data.isnull().sum()) #检查数据中是否存在缺失值
print(data.shape) #检查维度
print(data.columns) #数据的标签
data = data.drop(["PN","AN"], axis = 1) #axis = 1表示对列进行处理,0表示对行
Y, X = data['Eads'] , data.drop(['Eads'] , axis = 1) #对Y、X分别赋值
columns = X.columns # 后面< moder 输出的各特征权重Wi可视化 >用到
2.3 标准化
'''=========================标准化========================'''
#利用StandardScaler函数对X进行标准化处理
scaler = StandardScaler()
X = scaler.fit_transform(X)
'''====================划分训练集与测试集==================='''
X_train,X_test,y_train,y_test = train_test_split(X , Y , test_size=0.2 , random_state=42)
2.4 模型训练
'''=======================模型训练========================'''
#模型训练
model = ElasticNet(max_iter=10000) # 模型实例化,最大训练10000轮直到收敛小于tol=1e-4。
# 定义超参数网格,建议调大一点 alpha 和 l1_ratio 不然会不收敛报错。
alpha = np.logspace(-4,1,10)
l1_ratio = np.linspace(0.1,1,10) # 0=<l1_ratio<=1
# 网格搜索
grid_search = GridSearchCV(estimator = model, param_grid={'alpha': alpha,'l1_ratio':l1_ratio}, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)
# 最佳模型与超参数
best_model = grid_search.best_estimator_ # 最佳模型
best_alpha = grid_search.best_params_['alpha'] # 最佳超参数L1正则
best_l1_ratio = grid_search.best_params_['l1_ratio'] # 最佳超参数#L2正则
print(f'Best alpha:{best_alpha:.3f}',"\n",f'l1_ratio:{best_l1_ratio:.3f}')
通过 GridSearchCV 搜索最优的 Best alpha:
Best alpha:0.001
l1_ratio:1.000
2.5 模型预测与评估
'''=====================模型预测与评估======================'''
#模型预测
y_pred_train = best_model.predict(X_train)
y_pred_test = best_model.predict(X_test)
#评估
mse_train=mean_squared_error(y_train,y_pred_train) #均方误差越小模型越好
mse_test=mean_squared_error(y_test,y_pred_test) #R2 表示模型对因变量的解释能力,取值范围从 0 ~ 1,越接近 1 表示模型对数据的拟合程度越好。
r2_train=r2_score(y_train,y_pred_train)
r2_test=r2_score(y_test,y_pred_test)
print(f'MSE(Train):{mse_train:.2f}') #保留2位小数
print(f'MSE(Test):{mse_test:.2f}')
print(f'R^2(Train):{r2_train:.2f}')
print(f'R^2(Test):{r2_test:.2f}')
'''============Lasso 输出的各特征权重Wi可视化=============='''
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
plt.barh(columns, best_model.coef_ )
plt.title('ElasticNet 输出的各特征权重W$_i$')
plt.savefig('./ElasticNet_Wi.jpg',dpi = 1200) #在当前文件夹下保存jpg格式图,dpi = 1200
plt.show()
MSE与结果:
MSE(Train):0.10
MSE(Test):0.09
R^2(Train):0.52
R^2(Test):0.49
弹性网络正则化包含 L1正则化(Lasso)的成分,能够将一些不重要的特征系数缩减为零,实现特征选择,简化模型。
2.6 可视化
'''======================结果可视化======================='''
plt.figure(figsize=(8,8))
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
colors = ['b', 'r'] # 设置颜色
markers = ["*","o"] # 设置点的形状
Y_train_picture = [y_train,y_test] #可视化图的x轴数据
Y_pred_picture = [y_pred_train,y_pred_test] #可视化图的y轴数据
for i in range(0,2):
plt.scatter(Y_train_picture[i],
Y_pred_picture[i],
s = 20, # 表示点的大小
c = colors[i], # 颜色
marker = markers[i], # 点的形状
edgecolors='b', # 散点边框颜色
alpha=0.6) # 透明度
plt.plot([-1.0,1.0],[-1.0,1.0],'r--') #可视化图数据范围
plt.xlabel('Actual') #x轴标签
plt.ylabel('Predicted') #y轴标签
plt.legend(['train', 'test'], loc='upper right',frameon=False) #图例,位置位于右上方,去掉图例边框
plt.title('Actual vs Predicted',fontsize=15, c='r')
# 将图保存为*.jpg图
plt.savefig('./ElasticNet_可视化.jpg',dpi = 1200) #在当前文件夹下保存jpg格式图,dpi = 1200
plt.show()
此图表示,数据点越靠近中间红线模型越好。
三、代码全部注释
'''====================导入Python库===================='''
import pandas as pd #python科学计算库
import numpy as np #Python的一个开源数据分析处理库。#
import matplotlib.pyplot as plt #常用Python画图工具
from sklearn.linear_model import ElasticNet # 线性回归 ElasticNet 模型
from sklearn.model_selection import train_test_split # 数据划分模块
from sklearn.preprocessing import StandardScaler # 标准化模块
from sklearn.model_selection import GridSearchCV # 超参数网格搜索
from sklearn.metrics import mean_squared_error,r2_score #误差函数MSE,误差函数R^2,
'''========================导入数据========================'''
data = pd.read_excel('D:/复现/trainset_loop6.xlsx') #读取xlsx格式数据
# date = pd.read_csv('D:/复现/trainset_loop6.csv') #读取csv格式数据
print(data.isnull().sum()) #检查数据中是否存在缺失值
print(data.shape) #检查维度
print(data.columns) #数据的标签
data = data.drop(["PN","AN"], axis = 1) #axis = 1表示对列进行处理,0表示对行
Y, X = data['Eads'] , data.drop(['Eads'] , axis = 1) #对Y、X分别赋值
columns = X.columns # 后面< moder 输出的各特征权重Wi可视化 >用到
'''=========================标准化========================'''
#利用StandardScaler函数对X进行标准化处理
scaler = StandardScaler()
X = scaler.fit_transform(X)
'''====================划分训练集与测试集==================='''
X_train,X_test,y_train,y_test = train_test_split(X , Y , test_size=0.2 , random_state=42)
'''=======================模型训练========================'''
#模型训练
model = ElasticNet(max_iter=10000) # 模型实例化,最大训练10000轮直到收敛小于tol=1e-4。
# 定义超参数网格,建议调大一点 alpha 和 l1_ratio 不然会不收敛报错。
alpha = np.logspace(-4,1,10)
l1_ratio = np.linspace(0.1,1,10) # 0=<l1_ratio<=1
# 网格搜索
grid_search = GridSearchCV(estimator = model, param_grid={'alpha': alpha,'l1_ratio':l1_ratio}, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)
# 最佳模型与超参数
best_model = grid_search.best_estimator_ # 最佳模型
best_alpha = grid_search.best_params_['alpha'] # 最佳超参数L1正则
best_l1_ratio = grid_search.best_params_['l1_ratio'] # 最佳超参数#L2正则
print(f'Best alpha:{best_alpha:.3f}',"\n",f'l1_ratio:{best_l1_ratio:.3f}')
'''=====================模型预测与评估======================'''
#模型预测
y_pred_train = best_model.predict(X_train)
y_pred_test = best_model.predict(X_test)
#评估
mse_train=mean_squared_error(y_train,y_pred_train) #均方误差越小模型越好
mse_test=mean_squared_error(y_test,y_pred_test) #R2 表示模型对因变量的解释能力,取值范围从 0 ~ 1,越接近 1 表示模型对数据的拟合程度越好。
r2_train=r2_score(y_train,y_pred_train)
r2_test=r2_score(y_test,y_pred_test)
print(f'MSE(Train):{mse_train:.2f}') #保留2位小数
print(f'MSE(Test):{mse_test:.2f}')
print(f'R^2(Train):{r2_train:.2f}')
print(f'R^2(Test):{r2_test:.2f}')
'''============Lasso 输出的各特征权重Wi可视化=============='''
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
plt.barh(columns, best_model.coef_ )
plt.title('ElasticNet 输出的各特征权重W$_i$')
plt.savefig('./ElasticNet_Wi.jpg',dpi = 1200) #在当前文件夹下保存jpg格式图,dpi = 1200
plt.show()
'''======================结果可视化======================='''
plt.figure(figsize=(8,8))
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
colors = ['b', 'r'] # 设置颜色
markers = ["*","o"] # 设置点的形状
Y_train_picture = [y_train,y_test] #可视化图的x轴数据
Y_pred_picture = [y_pred_train,y_pred_test] #可视化图的y轴数据
for i in range(0,2):
plt.scatter(Y_train_picture[i],
Y_pred_picture[i],
s = 20, # 表示点的大小
c = colors[i], # 颜色
marker = markers[i], # 点的形状
edgecolors='b', # 散点边框颜色
alpha=0.6) # 透明度
plt.plot([-1.0,1.0],[-1.0,1.0],'r--') #可视化图数据范围
plt.xlabel('Actual') #x轴标签
plt.ylabel('Predicted') #y轴标签
plt.legend(['train', 'test'], loc='upper right',frameon=False) #图例,位置位于右上方,去掉图例边框
plt.title('Actual vs Predicted',fontsize=15, c='r')
# 将图保存为*.jpg图
plt.savefig('./ElasticNet_可视化.jpg',dpi = 1200) #在当前文件夹下保存jpg格式图,dpi = 1200
plt.show()
优点
-
特征选择:弹性网络正则化包含 L1 正则化(Lasso)的成分,能够将一些不重要的特征系数缩减为零,实现特征选择,简化模型。
-
处理多重共线性:相比单纯的 Lasso 或 Ridge,弹性网络在处理多重共线性(特征之间高度相关)时表现更好。L2 正则化成分可以分散权重,避免某些特征权重过大。
-
稳定性:由于 L2 正则化成分,模型更加稳定,防止回归系数过大,从而减小过拟合风险。
-
灵活性:通过调节混合参数,可以在 L1 和 L2 正则化之间进行权衡,从而灵活适应不同数据集和任务需求。
缺点
-
计算复杂度:相比单独使用 Lasso 或 Ridge,弹性网络的计算复杂度更高,尤其是在高维数据和大规模数据集上,计算开销较大。
-
参数选择复杂:需要同时调节两个正则化参数( L1 和 L2 ),参数调优过程较复杂且耗时。
-
可能的过拟合:尽管弹性网络结合了 L1 和 L2 的优点,但在特征数远大于样本数的情况下,仍然存在过拟合风险。
持续更新中。。。