参考:
百度百科:https://baike.baidu.com/item/%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9/4950639?fr=aladdin
sklearn中文文档https://sklearn.apachecn.org/docs/0.21.3/14.html
理论经验总结(很好的)https://www.cnblogs.com/stevenlk/p/6543628.html
代码实践https://blog.youkuaiyun.com/u010899985/article/details/81699091
比赛实践https://blog.youkuaiyun.com/u010899985/article/details/81626808
工程经验https://blog.youkuaiyun.com/u010899985/article/details/83029320
工程实践https://blog.youkuaiyun.com/u010899985/article/details/83021885
特征选择的原则:特征对于区分样本有帮助
特征选择的作用:理解数据;提高模型泛化能力,减轻过拟合
1. 移除低方差特征:方差越低,数据变动越小,极端就是没有变动的数据,这对于区分样本没有帮助
2. 单变量特征选择:基于统计测试来计算相关性,
分类问题:卡方检验,f_classif, mutual_info_classif,互信息
回归问题:皮尔森相关系数,f_regression, mutual_info_regression,最大信息系数
作用:对理解数据有用,对提高泛化用处不大,可以作为预测模型的预处理部分
sklearn学习
特征选择:sklearn.feature_selection
.RFECV
http://lijiancheng0614.github.io/scikit-learn/modules/generated/sklearn.feature_selection.RFECV.html
模型评估:sklearn.model_selection
.cross_validate
评价指标:sklearn.metrics
https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter
三种方法进行特征选择:1. filter,运用统计量和信息论指标,2. wrapper,搜索问题,3.embeded, 模型效果指标