本文为数据挖掘竞赛技巧篇之常用trick介绍。
1.特征选择策略
特征选择(按重要程度排序)对数据分析非常重要。好的特征能够改善模型、提升模型的性能,特征选择主要有两个功能:
-
减少特征数量、降维,使模型泛化能力更强,减少过拟合;
-
增强对特征和特征值之间的理解。

2.模型融合
一般来说模型融合可以有效的、直接的提升自身模型精度,集成之后的模型比其中任何一个单独的模型都有更高的预测能力。

一般被选手常用的模型融合方式有n折交叉验证法、多模型融合投票法。
3.奥卡姆剃刀原理
奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单(特征尽量少,把没有必要的特征干掉、因为碍事还没价值或者价值边际递减的非常厉害)才是最好的,也就是应该选择的模型。

—End—
本文介绍了数据挖掘竞赛中常用的技巧,包括特征选择策略、模型融合方法及奥卡姆剃刀原理的应用。特征选择能够提高模型性能并减少过拟合,而模型融合能有效提升预测准确性。
2万+

被折叠的 条评论
为什么被折叠?



