线性相关系数、卡方检验、互信息

本文介绍了数据挖掘中的三种重要统计量:线性相关系数用于衡量两个变量的线性相关程度,卡方检验检测变量间的独立性,互信息则度量两个随机变量的依赖性。线性相关系数需基于线性关系,卡方检验适用于离散特征的独立性检验,而互信息能处理离散和连续特征,但都需要特征离散化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

线性相关系数、卡方检验、互信息

相信大家在数据挖掘的很多地方大家都看到这三个概念,比如说线性拟合的时候,看线性相关系数来评估拟合程度;在特征工程中,这三个都是filter类方法之一(过滤型)。那今天给大家总结下这三个概念,个人才疏学浅,有啥问题还请大家批评指正。


线性相关系数

也叫Pearson相 关 系 数, 主要衡量两个变量线性相关的程度,由卡尔·皮尔森1880年提出。它的公式为

线性相关系数公式

其中 X¯¯¯ X 的平均值, Y¯¯¯ Y 的平均值。 r 的取值[-1,1]。越接近1,表示 X Y 越相关,其中负数表示负相关。

需要特别注意的是:
1. 线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。实例可以参看博文
2. 从公式中可以看出,如果只有一个数据,分母为0,线性相关系数也是无意义的。其实少量数据量,计算线性相关性也是无意义的(怎么画那条直线呢)。
因此,

### 其他相关性分析方法 在统计学和机器学习领域,除了皮尔逊(Pearson)相关系数外,还有其他重要的相关性分析方法,这些方法适用于不同的数据类型和场景。以下是几种常见的相关性分析方法及其特点: #### 1. 斯皮尔曼(Spearman)等级相关系数 斯皮尔曼相关系数是一种非参数的度量方法,用于评估两个变量之间的单调关系(包括线性和非线性)。它基于变量的秩次而非原始值进行计算,因此对异常值不敏感[^2]。 公式为: ```python import numpy as np from scipy.stats import spearmanr # 示例代码 x = [1, 2, 3, 4, 5] y = [5, 6, 7, 8, 7] correlation, p_value = spearmanr(x, y) print(f"Spearman Correlation: {correlation}, P-value: {p_value}") ``` #### 2. 肯德尔(Kendall)等级相关系数 肯德尔相关系数也是一种非参数的度量方法,用于衡量两个变量之间的有序关联程度。与斯皮尔曼相关系数类似,它也基于秩次计算,但更注重变量间的配对一致性[^2]。 公式为: ```python from scipy.stats import kendalltau # 示例代码 x = [1, 2, 3, 4, 5] y = [5, 6, 7, 8, 7] correlation, p_value = kendalltau(x, y) print(f"Kendall Correlation: {correlation}, P-value: {p_value}") ``` #### 3. 点二列相关系数 点二列相关系数用于衡量一个连续变量和一个二分类变量之间的相关性。它本质上是皮尔逊相关系数的一种特殊情况,常用于教育和心理学研究中[^4]。 #### 4. Phi 系数 Phi 系数用于衡量两个二分类变量之间的相关性。它是卡方检验的一个扩展,适用于交叉表数据分析[^4]。 #### 5. 互信息(Mutual Information) 互信息是一种信息论中的度量方法,用于衡量两个变量之间的依赖程度。与相关系数不同,互信息可以捕捉到非线性的关系,因此在机器学习中应用广泛[^4]。 公式为: ```python from sklearn.feature_selection import mutual_info_classif # 示例代码 x = [[1], [2], [3], [4], [5]] y = [5, 6, 7, 8, 7] mi = mutual_info_classif(x, y) print(f"Mutual Information: {mi}") ``` ### 方法选择依据 - **数据类型**:如果数据为连续型且呈线性关系,可以选择皮尔逊相关系数;如果数据为有序类别型或存在非线性关系,则可以选择斯皮尔曼或肯德尔相关系数。 - **异常值敏感性**:皮尔逊相关系数对异常值较为敏感,而斯皮尔曼和肯德尔相关系数则更为稳健。 - **非线性关系**:对于复杂的非线性关系,互信息可能是更好的选择。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值