有一句话这么说,特征决定上限,模型逼近上限。特征选择对后面的模型训练很重要,选择合适重要的特征,对问题求解尤为重要,下面介绍一些常见的特征选择方法。
通常来说,从两个方面考虑来选择特征:
- 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
- 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。
①相关系数法 使用相关系数法,先要计算各个特征对目标值的相关系
常用的有皮尔逊相关系数,斯皮尔曼秩系数,可见本博客中的相关分析http://blog.youkuaiyun.com/u014755493/article/details/69744860
②构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征
③