【DA】特征选择之互信息


衡量单变量的相关性指标有很多,比如Pearson相关系数、Pearson卡方检验、Fisher得分、互信息等。

1 基本概念

详见:特征选择——互信息量

信息量

在这里插入图片描述

信息熵

在这里插入图片描述
在这里插入图片描述

条件熵

在这里插入图片描述

互信息量

在给出互信息定义前先看下这张关系图:
在这里插入图片描述
在这里插入图片描述

2 Python实现-特征选择过滤器

mutual_info_classif:离散目标变量的互信息

mutual_info_classif用于分类模型。基于互信息选择特征。互信息方法可以捕捉任何一种统计依赖,但是作为非参数方法,需要更多的样本进行准确的估计。

做特征选择时需要根据特征变量 X 和因变量 Y 的类型来选取合适的相关性指标,这里互信息适用于特征和因变量都是分类变量的情况。
在这里插入图片描述

sklearn.feature_selection.mutual_info_classif(X, y, 
											  discrete_features='auto', 
											  n_neighbors=3, 
											  copy=True, 
											  random_state=None)[source]

参数说明如下:

Parameters
----------
X: array_like or sparse matrix, shape (n_samples, n_features)
   Feature matrix.
   特征矩阵。

y:array_like, shape (n_samples,)
   Target vector.
   标签向量。

discrete_features:{
   ‘auto’, bool, array_like}, default=‘auto’
				   如果为'auto',则将其分配给
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值