一次失败的kaggle比赛（2）：构造新特征、特征筛选

本文探讨了特征选择的重要性，并介绍了几种适用于不同特征数量的技术。同时，对比了几种机器学习模型的效果，强调了在特征选择时考虑特征数量的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一篇中提到的主要问题：

第一：暴力搜索特征的方式在特征数较多的情况下不可取；较少的情况下可以考虑（<200）

第二：sklearn中的这几个模型，ExtraTreesClassifier效果最差，RandomForestClassifier效果较好且速度比较快，GradientBoostingClassifier结果最好但速度非常慢（因为不能并行）

第三：当某一个模型（GradientBoostingClassifier）比其他模型效果好很多时，不要使用blending的方法（尤其是特征空间一样，分类器类似的情况，比如这里的五个分类器都在同一组特征上建模，而且都是基于树的分类器），因为blending往往会使整体效果低于单独使用最好的一个模型

第四：对于AUC，实际上关心的是样本间的排名，而不是具体数值的大小，所以结果没必要做归一化处理；关于这个结论，自行搜索资料理解

这篇解决第一个问题：特征选取。

常见的【特征筛选方法】包括：

1）第一篇中介绍的暴力搜索（其实是一种【前向】贪心搜索，greedyADD），适合特征数较少的情况（<200）

2）另一种暴力搜索（其实是一种【后向】贪心搜索，greedyElimination），适合特征数较少的情况（<200）

代码与第一篇类似，不过可以使用sklearn中的工具：

[python]view plaincopy 
   
 selectorRFECV=feature_selection.RFECV(estimator=model, step=1, cv=5, scoring='roc_auc')  
 selectorRFECV.fit(trainX, trainY) #take me three days(24*2+12 hours) to fit the selector  
 joblib.dump(selectorRFECV, 'modelPersistence/selectorRFECV.pkl')  
 #selectorRFECV=joblib.load('modelPersistence/selectorRFECV.pkl')   
 print selectorRFECV.n_features_ #144  
 print selectorRFECV.support_  

3）根据树的featureImportance选择特征，适合特征数较多的情况

4）根据特征与label之间的皮尔曼相关系数（或其他指标）筛选特征

[python]view plaincopy 
   
 corr=stats.pearsonr(data[:,feaI]+data[:,feaJ], label)  
 print abs(corr[0])  
 if abs(corr[0])<eps:  
     continue  
 else:  
     feaPairCorr=(feaI, feaJ, corr[0])  
     feaPairCorrList.append(feaPairCorr)