零基础入门数据挖掘之心电图分类 Task5 建模融合

最新推荐文章于 2021-03-28 21:55:30 发布

原创最新推荐文章于 2021-03-28 21:55:30 发布 · 305 阅读

CC 4.0 BY-SA版权

本文介绍了数据挖掘中的模型融合技术，特别是针对心电图分类Task5，重点讨论了stacking和blending两种方法。stacking通过多层模型集成，利用基学习器的预测结果作为新特征进行训练，而blending则是在不同数据集上训练基模型，取平均值。此外，还提到其他模型融合方法以及它们的优缺点。

此次学习是整个学习的最后一节。收获颇丰！感谢datawhale提供的平台！

模型融合

在前面的特征工程中，特征融合也是一个重要的环节，而对于模型的融合也是一个相当重要的环节。俗话说：三个臭皮匠顶个诸葛亮

常见的模型融合有以下三大类型的方法

简单的加权融合：这部分比较好理解，光看名字就可以理解例如
回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；
分类：投票（Voting)
综合：排序融合(Rank averaging)，log融合
stacking/blending：本次blog主要学习这个给方法
boosting/bagging ：在前面的学习提到了

stacking

参考链接

stacking：stacking是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练，从而得到完整的stacking模型。stacking的方法在各大数据挖掘比赛上都很风靡，模型融合之后能够小幅度的提高模型的预测准确度。
如图所示
在这里插入图片描述
第一层，我们采用RF、ET、GBDT、XGB四种模型，分别对训练样本进行预测，然后将预测结果作为下一层的训练样本
具体过程：

划分training data为K折，为各个模型的训练打下基础；
针对各个模型RF、ET、GBDT、XGB，分别进行K次训练，每次训练保留K分之一的样本用作训练时的检验，训练完成后对testing data进行预测，一个模型会对应5个预测结果，将这5个结果取平均；
最后分别得到四个模型运行5次之后的平均值，同时拼接每一系列模型对训练数据集的预测结果带入下一层；
第二层：将上一层的四个结果带入新的模型，进行训练再预测。第二层的模型一般为了防止过拟合会采用简单的模型。
具体训练过程：将四个预测结果，拼接上各个样本的真实label，带入模型进行训练，最终再预测得到的结果就是stacking融合之后的最终预测结果了。

blending

Blending方式和Stacking方式很类似，相比Stacking更简单点，两者区别是：
Blending是直接准备好一部分10%留出集只在留出集上继续预测，用不相交的数据训练不同的 Base Model，将它们的输出取（加权）平均。实现简单，但对训练数据利用少了
blending 的优点是：比stacking简单，不会造成数据穿越（所谓数据穿越，就比如训练部分数据时候用了全局的统计特征，导致模型效果过分的好），generalizers和stackers使用不同的数据，可以随时添加其他模型到blender中。
缺点在于：blending只使用了一部分数据集作为留出集进行验证，而stacking使用多折交叉验证，比使用单一留出集更加稳健。

一些其他方法

利用stacking的原理，将特征放进模型中预测，并将预测结果变换并作为新的特征加入原有特征中再经过模型预测结果（Stacking变化）
代码如下

def Ensemble_add_feature(train,test,target,clfs):
    
    # n_flods = 5
    # skf = list(StratifiedKFold(y, n_folds=n_flods))

    train_ = np.zeros((train.shape[0],len(clfs*2)))
    test_ = np.zeros((test.shape[0],len(clfs*2)))

    for j,clf in enumerate(clfs):
        '''依次训练各个单模型'''
        # print(j, clf)
        '''使用第1个部分作为预测，第2部分来训练模型，获得其预测的输出作为第2部分的新特征。'''
        # X_train, y_train, X_test, y_test = X[train], y[train], X[test], y[test]

        clf.fit(train,target)
        y_train = clf.predict(train)
        y_test = clf.predict(test)

        ## 新特征生成
        train_[:,j*2] = y_train**2
        test_[:,j*2] = y_test**2
        train_[:, j+1] = np.exp(y_train)
        test_[:, j+1] = np.exp(y_test)
        # print("val auc Score: %f" % r2_score(y_predict, dataset_d2[:, j]))
        print('Method ',j)

    train_ = pd.DataFrame(train_)
    test_ = pd.DataFrame(test_)
    return train_,test_

from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

data_0 = iris.data
data = data_0[:100,:]

target_0 = iris.target
target = target_0[:100]

x_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.3)
x_train = pd.DataFrame(x_train) ; x_test = pd.DataFrame(x_test)

#模型融合中使用到的各个单模型
clfs = [LogisticRegression(),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]

New_train,New_test = Ensemble_add_feature(x_train,x_test,y_train,clfs)

clf = LogisticRegression()
# clf = GradientBoostingClassifier(learning_rate=0.02, subsample=0.5, max_depth=6, n_estimators=30)
clf.fit(New_train, y_train)
y_emb = clf.predict_proba(New_test)[:, 1]

print("Val auc Score of stacking: %f" % (roc_auc_score(y_test, y_emb)))