文章目录
衡量单变量的相关性指标有很多,比如Pearson相关系数、Pearson卡方检验、Fisher得分、互信息等。
1 基本概念
详见:特征选择——互信息量
信息量
信息熵
条件熵
互信息量
在给出互信息定义前先看下这张关系图:
2 Python实现-特征选择过滤器
mutual_info_classif:离散目标变量的互信息
mutual_info_classif
用于分类模型。基于互信息选择特征。互信息方法可以捕捉任何一种统计依赖,但是作为非参数方法,需要更多的样本进行准确的估计。
做特征选择时需要根据特征变量 X 和因变量 Y 的类型来选取合适的相关性指标,这里互信息适用于特征和因变量都是分类变量的情况。
sklearn.feature_selection.mutual_info_classif(X, y,
discrete_features='auto',
n_neighbors=3,
copy=True,
random_state=None)[source]
参数说明如下:
Parameters
----------
X: array_like or sparse matrix, shape (n_samples, n_features)
Feature matrix.
特征矩阵。
y:array_like, shape (n_samples,)
Target vector.
标签向量。
discrete_features:{
‘auto’, bool, array_like}, default=‘auto’
如果为'auto',则将其分配给