接第一篇:http://blog.youkuaiyun.com/mmc2015/article/details/51095446
第一篇中提到的主要问题:
第一:暴力搜索特征的方式在特征数较多的情况下不可取;较少的情况下可以考虑(<200)
第二:sklearn中的这几个模型,ExtraTreesClassifier效果最差,RandomForestClassifier效果较好且速度比较快,GradientBoostingClassifier结果最好但速度非常慢(因为不能并行)
第三:当某一个模型(GradientBoostingClassifier)比其他模型效果好很多时,不要使用blending的方法(尤其是特征空间一样,分类器类似的情况,比如这里的五个分类器都在同一组特征上建模,而且都是基于树的分类器),因为blending往往会使整体效果低于单独使用最好的一个模型
第四:对于AUC,实际上关心的是样本间的排名,而不是具体数值的大小,所以结果没必要做归一化处理;关于这个结论,自行搜索资料理解
这篇解决第一个问题:特征选取。</

本文是作者对一次失败的kaggle比赛的总结,重点讨论了在特征数量较多时如何有效选择特征。文章提到了暴力搜索特征的局限性,并介绍了基于树的特征重要性选择和皮尔曼相关系数等方法。同时,探讨了多项式特征、线性组合特征及其他特征构造技术,以及PCA在特征筛选中的应用。
最低0.47元/天 解锁文章
:构造新特征、特征筛选&spm=1001.2101.3001.5002&articleId=51095588&d=1&t=3&u=77ff34d829eb48eeaa88ef6359fe6997)
2万+

被折叠的 条评论
为什么被折叠?



