特征选择
1.相关性
通过使用相关性,我们很容易看到特征之间的线性关系。这种关系可以用一条直线拟合。
下面通过皮尔逊相关系数(Pearson correlation coefficient)来解释特征的相关性:
下面每幅图上方的相关系数Cor(X1, X2)是计算出来的皮尔逊r值,从图中可以看出不同程度的相关性。
scipy.stats.pearsonr(),给定两个数据序列 ,会返回相关系数值和p值所组成的元组。皮尔逊相关系数(皮尔逊r值)测量两个序列的线性关系,取值在-1到1之间,-1代表负相关、1代表正相关、0代表不相关。r值:
rpb=∑(x−

本文探讨了特征选择中的两种方法:皮尔逊相关系数和互信息。通过皮尔逊相关系数分析特征间的线性关系,识别高度相关特征以减少冗余。互信息则更关注特征间的信息共享,适用于非线性关系,能捕捉更复杂的依赖。文中还提及了其他特征选择策略,如决策树和正则化方法。
最低0.47元/天 解锁文章
6338





