ExtraTrees回归模型中引入L1正则化项-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_45876576/article/details/141330872

要在Extra Trees回归模型中引入L1正则化，Lasso回归的预测结果作为新的特征

import pandas as pd
from sklearn.model_selection import train_test_split
import joblib
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error,mean_absolute_error,r2_score
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import Lasso

data = pd.read_csv('data.csv')
# data = pd.read_csv('E:/Myjupyter/血糖/data/高血糖邓老师拟合新板子的数据.csv')
print(data.shape)

features = ['features']

target = data['target']
X_train, X_test, y_train, y_test = train_test_split(data[features], target, test_size=0.2, random_state=300)

# 特征归一化
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

lasso = Lasso(alpha=0.5)  # 设置L1正则化参数alpha
lasso.fit(X_train, y_train)

# 使用Lasso回归的预测结果作为新的特征
x_train_lasso = lasso.predict(X_train).reshape(-1, 1)
x_test_lasso = lasso.predict(X_test).reshape(-1, 1)

# 将Lasso回归的预测结果与原始特征合并
x_train_combined = np.hstack((X_train, x_train_lasso))
x_test_combined = np.hstack((X_test, x_test_lasso))


model = ExtraTreesRegressor(max_depth=9,min_samples_leaf =2,min_samples_split=4,n_estimators=100)
# 训练模型
model.fit(x_train_combined, y_train)

# 模型评估
y_train_pred = model.predict(x_train_combined)
y_test_pred = model.predict(x_test_combined)
mse = mean_squared_error(y_test, y_test_pred)
print("均方误差：", mse)

r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)
print("训练集R^2分数:", r2_train)
print("测试集R^2分数:", r2_test)
joblib.dump(model, 'model.pkl')

fig = plt.figure(figsize=(15, 8), dpi=80)  # dpi越高放大越清楚
plt.rcParams['font.sans-serif'] = ['SimSun']  # 显示中文字体
plt.rcParams['axes.unicode_minus'] = False
# 绘制预测值
plt.subplot(121)
plt.plot(y_train_pred, 'ro-', label='训练集预测值')
# 绘制真实值
plt.plot(np.asarray(y_train), 'bo-.', label='真实值')
plt.title("训练集")
plt.xlabel('样本序号')
plt.ylabel('血糖值')
plt.legend(loc='best')

plt.subplot(122)
plt.plot(y_test_pred, 'ro-', label='测试集预测值')
# 绘制真实值
plt.plot(np.asarray(y_test), 'bo-.', label='真实值')
plt.title("测试集")
plt.xlabel('样本序号')
plt.ylabel('血糖值')
plt.legend(loc='best')
plt.show()
oblib.dump(model, 'lssvr.pkl')
joblib.dump(lasso, 'lasso.pkl')
joblib.dump(scaler, 'scaler.pkl')
joblib.dump(target_scaler, 'target_scaler.pkl')

用生成的模型进行预测数据

import joblib
import numpy as np
from sklearn.metrics import mean_absolute_error
from matplotlib import pyplot as plt
from sklearn.metrics import r2_score
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import Lasso

# 加载导出的模型
lssvr_model = joblib.load('lssvr.pkl')
lasso_model = joblib.load('lasso.pkl')  # 确保保存了Lasso模型

# 加载新数据
new_data = pd.read_csv('test.csv')

features = ['features '] 

# 选择原始特征
original_features = new_data[features]  # 确保features是您用于训练Lasso模型的特征列表

# 对原始特征进行归一化处理
scaler = joblib.load('scaler.pkl')  # 确保保存了用于训练Lasso模型的scaler
new_data_scaled = scaler.transform(original_features)

# 使用Lasso回归模型对新数据进行预测
new_data_lasso_pred = lasso_model.predict(new_data_scaled)

# 将Lasso回归的预测结果作为新特征
# 需要将预测结果转换为与原始特征相同形状的数组
new_features_with_lasso = np.column_stack((new_data_scaled, new_data_lasso_pred))

# 使用LSSVR模型进行预测
new_predictions_scaled = lssvr_model.predict(new_features_with_lasso)

# 反归一化预测结果
target_scaler = joblib.load('target_scaler.pkl')  # 确保保存了用于训练LSSVR模型的target_scaler
new_predictions = target_scaler.inverse_transform(new_predictions_scaled.reshape(-1,1))

# 打印或保存预测结果
print(new_predictions)
test_y=new_data[['target']]
test_y=np.array(test_y)
mse = mean_squared_error(test_y, new_predictions)
print("mpe=",mse)

r2 = r2_score(test_y, new_predictions)
print(r2)



fig = plt.figure(figsize=(15, 8), dpi=80)  # dpi越高放大越清楚
plt.rcParams['font.sans-serif'] = ['SimSun']  # 显示中文字体
plt.rcParams['axes.unicode_minus'] = False
# 绘制预测值
plt.plot(new_predictions, 'ro-', label='预测值')
# 绘制真实值
plt.plot(np.asarray(test_y), 'bo-.', label='真实值')
plt.title("LSSVR")
plt.xlabel('样本序号')
plt.ylabel('血糖值')
plt.legend(loc='best')
plt.show()