第三部分中的建模阶段,在不调参的情况下模型精度已经很高了,
但是在使用5折交叉验证进行模型性能评估的时候出现报错:
KeyError: "None of [Int64Index([ 0, 1, 2, 3, 4, 6, 7, 9, 10,\n 12,\n ...\n 34928, 34929, 34930, 34931, 34932, 34933, 34934, 34935, 34936,\n 34938],\n dtype='int64', length=27951)] are in the [columns]"
这个问题暂时还没有解决;
因为模型精度已经很高的,所以后面的调参程序可以先搁置。
这里先考虑一下模型融合的方法:
简单的平均和加权平均是常用的两种比赛中模型融合的方式,其优点是快速、简单。
简单加权
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=