皮尔逊相关系数(Pearson Correlation Coefficient)可用于特征降维,如两个特征的皮尔逊相关系数值很高,则可删除其中一个特征。
皮尔逊相关系数(Pearson Correlation Coefficient),记作 ,是统计学中用于
度量两个变量间线性相关程度
的一个指标。它衡量的是两个变量的协变程度
,且其值范围固定在
- 当
时,表示两个变量
完全正相关
; - 当
时,表示
完全负相关
; - 当
时,表示两个变量
没有线性相关性
。
计算公式
皮尔逊相关系数的计算公式为:
其中:
分别是两个变量
和
的第
个
观测值。
是
观测值的数量。
分别是变量
和
的
样本均值。
- 分子部分是两个变量的
协方差(未标准化)。
- 分母是两个变量
各自标准差的乘积。
对公式的每个字符进行解释:
:皮尔逊相关系数的值。
:求和符号,用来计算一系列数值的总和。
:分别是两个变量
和
:分别是变量
和
的样本均值,即所有
或
:样本中观测值的总数。
:这是每个观测值对协方差的贡献。
和
:这是每个观测值对各自变量方差的贡献。
:根号表示开方运算,用于计算标准差。
皮尔逊相关系数的计算需要两个变量的观测值都具有数值属性
,并且通常假设数据服从正态分布
,虽然在实际应用中,这一假设有时会被放宽。
这个系数有助于理解两个变量间的关系强度和方向
,但并不能揭示因果关系。
此外,皮尔逊相关系数仅适用于检测线性关系,对于非线性关系,可能需要使用其他相关性度量。