Datawhale-河北高校邀请赛-二手车回归预测-task5-模型融合

最新推荐文章于 2024-08-17 22:55:51 发布

转载最新推荐文章于 2024-08-17 22:55:51 发布 · 303 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.59dd4bdeD5Vgu8&postId=95535

文章标签：

#数据挖掘

本文详细介绍了模型融合的各种方法，包括简单加权融合、投票法、排序融合、log融合以及更复杂的stacking和blending。stacking通过构建多层模型，利用初级学习器的预测结果训练次级学习器，而blending则是在原始训练数据上划分两部分，一部分用于训练，一部分用于融合。文中还展示了在鸢尾花数据集上的分类模型融合示例，使用了VotingClassifier进行硬投票和软投票，并通过5折交叉验证评估模型性能。最后，文章探讨了融合模型在不同数据分布情况下的过拟合问题及解决方案，并提供了实际赛题的应用案例，涉及XGBoost、LightGBM和RandomForest等模型的融合。

5.模型融合，学习者：天天向上-天天

模型融合目标

对于多种调参完成的模型进行模型融合
完成对于多种模型的融合，提交融合结果并打卡

内容介绍

简单加权融合
1. 回归（分类概率）：算术平均融合（Arithmetic mean）, 几何平均融合（Geometric mean）
2. 分类：投票（Voting）
3. 综合：排序融合（Rank averaging），log融合
stacking/blending:
1. 构建多层模型，并利用预测结果再拟合预测。
boosting/bagging(再xgboost，Adaboost，GBDT中已经用到)：
1. 多树的提升方法

Stacking 相关理论介绍

什么是stacking

简单说stacking就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。

将个体学习器结合在一起的时候使用的方法较做结合策略。对于分类问题，我们可以使用投票来选择输出最多的类。对于回归问题，我们可以将分类器输出的结果求平均值。

上面说的投票法和平均法都是很有效的结合策略，还有一种结合册策略使使用另外一个机器学习算法将个体机器学习其的结果结合在一起，这个方法节时Stacking。

在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器或者元学习器（meta-learner），次级学习器用于训练的数据叫做次级训练集。刺激训练集实在训练集上用初级学习器得到的。
如何进行stacking

在这里插入图片描述

过程1-3使训练出来的个体学习器，也就是初级学习器
过程5-9使使用训练出来的个体学习器来得预测的结果，这个预测的结果当作次级学习器的训练集。
过程11使用初级学习器预测的结果训练出次级学习器，得到我们最后训练的模型。

如果训练集和测试集分布不那么一致的情况下是有一点问题的，其问题在于用初始模型训练的标签再利用真是标签进行再训练，会导致一定的模型过拟合训练集，这样或许模型再测试集上的泛化能力或者说效果会有一定的下降，因此现在的问题变成了如何降低再寻来你的过拟合性，这里我们一般有两种方法。

次级模型尽量选择简单的线性模型
利用k折交叉验证

k-折交叉验证；训练：

在这里插入图片描述

预测：

分类模型融合

from sklearn.datasets import make_blobs
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClasifier
from sklearn.ensemnle import VotingClassifier
from xgooost import XGBClassifier
from sklearn.linear_model import LogisicRegression
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold

Voting投票机质：

Voting即投票机制，分为软投票和硬投票，其原理采用少数服从多数的思想

硬投票：对于多个模型直接进行投票，不区分模型结果的相对重要度，最终投票数最多的类为最终别预测的类。

iris = datasets.load_iris()

x = iris.data
y = iris.taeget
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3)

clf1 = XGBClassifier(learing_rate=0.1,n_estimators=150,max_depth=3,min_child_weight=2,subsample=0.7,colsample_bytree=0.6,objective='binary:logistic')
clf2 = RandomForestClassifier(n_estimators=50,max_depth=1,min_samples_split=4,min_samples_leaf=63,oob_score=True)
clf3 = SVC(c=0.1)

# 硬投票
eclf = VotingClassifier(estimators=[('xgb',vlf1),('rf',cls2),('svc',clf3)],voting='hard')
for clf, label in zip([clf1,clf2,clf3],['XGBBoosting','Random Forest','SVM','Ensemble']):
    scores = cross_val_score(clf,x,y,cv=5,scoring='accuracy')
    print('Accuracy:%0.2f (+/- %0.2f)[%s]'%(scores.mean(),scores.std(),label))

软投票：和硬投票原理相同，增加了设置权重的功能，可以为不同模型设置不同权重，进而区别模型不同的重要度。

x=iris.data
y=iris.target
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)

clf1 = XGBClassifier(learning_rate=0.1, n_estimators=150, max_depth=3, min_child_weight=2, subsample=0.8,
                     colsample_bytree=0.8, objective='binary:logistic')
clf2 = RandomForestClassifier(n_estimators=50, max_depth=1, min_samples_split=4,
                              min_samples_leaf=63,oob_score=True)
clf3 = SVC(C=0.1, probability=True)

# 软投票
eclif = VotingClassifier(estimators=[('xgb',clf1),('rf',clf2),('svc',clf3)],voting='sotf',weights=[2,1,1])
clf1.fit(x_train,y_train)
for clf, label in zip([clf1, clf2, clf3, eclf], ['XGBBoosting', 'Random Forest', 'SVM', 'Ensemble']):
    scores = cross_val_score(clf, x, y, cv=5, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

分类的Stacing\Blending融合

stacking 是一种分层模型继承框架

以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层模型则是以第一层基学习器的输出作为训练集进行再训练，从而得到完整的stacking模型，stacking两层模型都使用了全部的寻训练数据

# 5-Fold Stacking
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtratreeClassifier,GradientBoostingClassifier
import pandas as pd
# 创建训练数据集
data_0 = iris.data
data = data_0[:100,:]
taget_0 = iris.target
taregt = target_0[:100]

# 模型融合中使用到的各个单模型
clfs = [LogisticRegression(solver='lbfgs')
        ,RandomForestClassifier(n_estimators=5,n_jobs=-1,criterion='gini')
        ,ExtraTreesClassifier(n_estimators=5,n_jobs=-1,criterion='gini')
        ,ExtraTreeClassifier(n_estimators=5,n_jobs=-1,criterion='entropy')
        ,GradientBoostingClassifier(learing_rate=0.05,subsample=0.5,max_depth=6,n_estimatoers=5)
       ]

# 切分一部分数据作为测试集
x, x_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=2020)

dataset_blend_train = np.zeros((X.shape[0], len(clfs)))
dataset_blend_test = np.zeros((X_predict.shape[0], len(clfs)))

#5折stacking
n_splits = 5
skf = StratifiedKFold(n_splits)
skf = skf.split(X, y)

for j, clf in enumerate(clfs):
    # 依次训练各个单个模型
    for i, (train, test) in enumerate(skf):
        # 5-Fold交叉训练，使用第i个部分作为预测，剩余的部分来训练模型，获得器预测的输出作为第i部分的新特征。
        x_train,y_train,x_test,y_test = x[train], y[train], x[test], y[test]
        clf.fit(x_train,y_train)
        y_submission = clf.predict_proba(x_test)[:,1]
        dataset_blend_train[test,j] = y_submission
        dataset_blend_test_j[:,i] = clf.predict_proba(x_predict)[:,1]
    #对于测试集，直接用这k个模型的预测值均值作为新的特征。
    dataset_blend_test[:, j] = dataset_blend_test_j.mean(1)
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_blend_test[:, j]))
    
clf = LogisticRegression(solver='lbfgs')
clf.fit(dataset_blend_train, y)
y_submission = clf.predict_proba(dataset_blend_test)[:, 1]

print("Val auc Score of Stacking: %f" % (roc_auc_score(y_predict, y_submission)))

Blending，其实和Stacking是一种类似的多层模型融合的形式

其主要思路是把原始的训练集先分成两部分，比如70%的数据作为新的训练集，剩下30%的数据作为测试集

在第一层，我们在70%的数据上训练多个模型，然后去预测那30%数据的label，同时也预测test集的label

在第二层，我们就直接用着30%数据在第一层预测的结果做为新特征继续训练，然后用test集第一层预测的label做特征，用第二层训练的模型做进一步预测

其优点在于：

比stacking见到那（因为不用机型k次的交叉验证来获得stacker feature）
避开了一个信息泄露的问题：generlizers 和 stacker使用了不一样的数据集

缺点在于：

使用了很少的数据（第二阶段的blender只是使用了training set 10% 的量）
blender可能过拟合
stacking使用多次的交叉验证会比较稳健

# Blending

#切分一部分数据作为测试集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=2020)

#切分训练数据集为d1,d2两部分
X_d1, X_d2, y_d1, y_d2 = train_test_split(X, y, test_size=0.5, random_state=2020)
dataset_d1 = np.zeros((X_d2.shape[0], len(clfs)))
dataset_d2 = np.zeros((X_predict.shape[0], len(clfs)))

for j, clf in enumerate(clfs):
    # 依次训练各个单模型
    clf.fit(X_d1, y_d1)
    y_submission = clf.predict_proba(X_d2)[:,1]
    dataset_d1[:, j] = y_submission
    # 对于测试集， 直接用k个模型的预测值作为新的特征
    dataset_d2[:, j] = clf.predict_proba(X_predict)[:,1]
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_d2[:, j]))

#融合使用的模型
clf = GradientBoostingClassifier(learning_rate=0.02, subsample=0.5, max_depth=6, n_estimators=30)
clf.fit(dataset_d1, y_d2)
y_submission = clf.predict_proba(dataset_d2)[:, 1]
print("Val auc Score of Blending: %f" % (roc_auc_score(y_predict, y_submission)))

分类的Stacking融合（利用mlxend）

import warings
warings.filerwarnings('ignore')
import itertools
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec

from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighbirsClassifier
from sklearn.navie_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingClassifier
from sklearn.model_selection import cross_val_score
from mlxtend.plotting import plot_learning_curves
from mlxtend.plotting import plot_decision_regions

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target

clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
lr = LogisticRegression()
sclf = StackingClassifier(classifiers=[clf1, clf2, clf3], 
                          meta_classifier=lr)

label = ['KNN', 'Random Forest', 'Naive Bayes', 'Stacking Classifier']
clf_list = [clf1, clf2, clf3, sclf]

fig = plt.figure(figsize=(10,8))
gs = gridspec.GridSpec(2, 2)
grid = itertools.product([0,1],repeat=2)

clf_cv_mean = []
clf_cv_std = []
for clf, label, grd in zip(clf_list, label, grid):
        
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')
    print("Accuracy: %.2f (+/- %.2f) [%s]" %(scores.mean(), scores.std(), label))
    clf_cv_mean.append(scores.mean())
    clf_cv_std.append(scores.std())
        
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf)
    plt.title(label)

plt.show()

本赛题示例

import pandas as pd
import numpy as np
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

warnings.filterwarnings('ignore')
%matplotlib inline

import itertools
import matplotlib.gridspec as gridspec
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split

from sklearn import linear_model
from sklearn import preprocessing
from sklearn.svm import SVR
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCA

import lightgbm as lgb
import xgboost as xgb
from sklearn.model_selection import GridSearchCV,cross_val_score
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor

from sklearn.metrics import mean_squared_error, mean_absolute_error

## 数据读取

Train_data = pd.read_csv('datalab/231784/used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('datalab/231784/used_car_testA_20200313.csv', sep=' ')
numerical_cols = Train_data.select_dtypes(exclude = 'object').columns
feature_cols = [col for col in numerical_cols if col not in ['SaleID','name','regDate','price']]


X_data = Train_data[feature_cols]
Y_data = Train_data['price']

X_test  = TestA_data[feature_cols]

def Sta_inf(data):
    print('_min',np.min(data))
    print('_max:',np.max(data))
    print('_mean',np.mean(data))
    print('_ptp',np.ptp(data))
    print('_std',np.std(data))
    print('_var',np.var(data))

def bulid_model_lr(x_train,y_train):
    reg_model = linear_model.LinearRegression()
    reg_model.fit(x_train,y_train)
    return reg_model

def build_model_rigde(x_train,y_train):
    reg_model = linear_model.Ridge(alpha=0,8)
    reg_model.fit(x_train,y_train)
    
def build_model_lasso(x_train,y_train):
    reg_model = linear_model.LassoCV()
    reg_model.fit(x_train,y_train)
    return reg_model

def build_model_gbdt(x_train,y_train):
    estimator = GradientBoostingRegressor(loss='ls',subsample= 0.85, max_depth= 5, n_estimators= 100)
    param_grid = {'learning_rate':[0.05,0.08,0.1,0.2]}
    gbdt = GridSearchCV(estimator,param_grid, cv = 3)
    gbdt.fit(x_train,y_train)
    print(gbdt.best_params_)
    return bgdt

def build_model_xgb(x_train,y_train):
    model = xgb.XGBRegressor(n_estimators=120, learing_rate=0.8,gama=0,subsample=0.8,colsample_bytree=0.9,max_depth= 5)
    model.fit(x_train,y_train)
    return model

def build_model_lgb(x_train,y_train):
    estimator = lgb.LGBRegressor(num_leaves=63,n_estimators=100)
    param_grid = {'learning_rate': [0.01, 0.05, 0.1]}
    gbm = GridSearchCV(estimator, param_grid)
    gbm.fit(x_train, y_train)
    return gbm

XGBoost的5折交叉回归验证实现

## xgb
xgr = xgb.XGBRegressor(n_estimators=120, learning_rate=0.1, subsample=0.8,\
        colsample_bytree=0.9, max_depth=7) # ,objective ='reg:squarederror'

scores_train = []
scores = []

## 5折交叉验证方式
sk=StratifiedKFold(n_splits=5,shuffle=True,random_state=0)
for train_ind,val_ind in sk.split(X_data,Y_data):
    
    train_x=X_data.iloc[train_ind].values
    train_y=Y_data.iloc[train_ind]
    val_x=X_data.iloc[val_ind].values
    val_y=Y_data.iloc[val_ind]
    
    xgr.fit(train_x,train_y)
    pred_train_xgb=xgr.predict(train_x)
    pred_xgb=xgr.predict(val_x)
    
    score_train = mean_absolute_error(train_y,pred_train_xgb)
    scores_train.append(score_train)
    score = mean_absolute_error(val_y,pred_xgb)
    scores.append(score)

print('Train mae:',np.mean(score_train))
print('Val mae',np.mean(scores))

原文的总结

结果层面的融合，这种是最常见的融合方法，其可行的融合方法也有很多，比如根据结果的得分进行加权融合，还可以做Log，exp处理等。在做结果融合的时候，有一个很重要的条件是模型结果的得分要比较近似，然后结果的差异要比较大，这样的结果融合往往有比较好的效果提升。
特征层面的融合，这个层面其实感觉不叫融合，准确说可以叫分割，很多时候如果我们用同种模型训练，可以把特征进行切分给不同的模型，然后在后面进行模型或者结果融合有时也能产生比较好的效果。
模型层面的融合，模型层面的融合可能就涉及模型的堆叠和设计，比如加Staking层，部分模型的结果作为特征输入等，这些就需要多实验和思考了，基于模型层面的融合最好不同模型类型要有一定的差异，用同种模型不同的参数的收益一般是比较小的。