相关系数 ρ i j \rho_{ij} ρij 解释
ρ i j = σ i j σ i i σ j j \rho_{ij} = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii} \sigma_{jj}}} ρij=σiiσjjσij
描述的是两个变量 X i X_i Xi 和 X j X_j Xj 之间的相关系数(Correlation Coefficient)。在统计学和数据分析中,它用于衡量两个变量之间的线性相关性。
公式中的符号含义
-
σ i j \sigma_{ij} σij :变量 X i X_i Xi 和 X j X_j Xj 之间的协方差(Covariance),计算公式:
σ i j = E [ ( X i − E [ X i ] ) ( X j − E [ X j ] ) ] \sigma_{ij} = \mathbb{E}[(X_i - \mathbb{E}[X_i])(X_j - \mathbb{E}[X_j])] σij=E[(Xi−E[Xi])(Xj−E[Xj])]
这表示 X i X_i Xi 和 X j X_j Xj 之间的共同变化趋势。
-
σ i i \sigma_{ii} σii(或 σ i 2 \sigma_i^2 σi2):变量 X i X_i Xi 的方差(Variance):
σ i i = Var ( X i ) = E [ ( X i − E [ X i ] ) 2 ] \sigma_{ii} = \text{Var}(X_i) = \mathbb{E}[(X_i - \mathbb{E}[X_i])^2] σii=Var(Xi)=E[(Xi−E[Xi])2]
也就是 X i X_i Xi 自身的波动程度。
-
σ j j \sigma_{jj} σjj(或 σ j 2 \sigma_j^2 σj2):变量 X j X_j Xj 的方差,类似于 σ i i \sigma_{ii} σii。
相关系数的作用
相关系数 ρ i j \rho_{ij} ρij 用于衡量两个变量之间的线性关系强度:
- 当 ρ i j = 1 \rho_{ij} = 1 ρij=1 时,表示两个变量完全正相关(当一个变量增加,另一个变量也增加)。
- 当 ρ i j = − 1 \rho_{ij} = -1 ρij=−1 时,表示两个变量完全负相关(当一个变量增加,另一个变量减少)。
- 当 ρ i j = 0 \rho_{ij} = 0 ρij=0 时,表示两个变量无线性相关关系(但可能存在非线性关系)。
举个例子
假设有两个变量:
- X 1 X_1 X1 是一个人的身高(cm)
- X 2 X_2 X2 是这个人的体重(kg)
我们收集了 5 个人的数据:
X
1
=
[
160
,
170
,
180
,
175
,
165
]
X_1 = [160, 170, 180, 175, 165]
X1=[160,170,180,175,165]
X
2
=
[
55
,
65
,
75
,
72
,
60
]
X_2 = [55, 65, 75, 72, 60]
X2=[55,65,75,72,60]
-
计算均值:
E [ X 1 ] = 160 + 170 + 180 + 175 + 165 5 = 170 \mathbb{E}[X_1] = \frac{160 + 170 + 180 + 175 + 165}{5} = 170 E[X1]=5160+170+180+175+165=170
E [ X 2 ] = 55 + 65 + 75 + 72 + 60 5 = 65.4 \mathbb{E}[X_2] = \frac{55 + 65 + 75 + 72 + 60}{5} = 65.4 E[X2]=555+65+75+72+60=65.4 -
计算方差:
σ 11 = ( 160 − 170 ) 2 + ( 170 − 170 ) 2 + ( 180 − 170 ) 2 + ( 175 − 170 ) 2 + ( 165 − 170 ) 2 5 \sigma_{11} = \frac{(160 - 170)^2 + (170 - 170)^2 + (180 - 170)^2 + (175 - 170)^2 + (165 - 170)^2}{5} σ11=5(160−170)2+(170−170)2+(180−170)2+(175−170)2+(165−170)2= ( − 10 ) 2 + 0 2 + 1 0 2 + 5 2 + ( − 5 ) 2 5 = 100 + 0 + 100 + 25 + 25 5 = 50 = \frac{(-10)^2 + 0^2 + 10^2 + 5^2 + (-5)^2}{5} = \frac{100 + 0 + 100 + 25 + 25}{5} = 50 =5(−10)2+02+102+52+(−5)2=5100+0+100+25+25=50
σ 22 = ( 55 − 65.4 ) 2 + ( 65 − 65.4 ) 2 + ( 75 − 65.4 ) 2 + ( 72 − 65.4 ) 2 + ( 60 − 65.4 ) 2 5 \sigma_{22} = \frac{(55 - 65.4)^2 + (65 - 65.4)^2 + (75 - 65.4)^2 + (72 - 65.4)^2 + (60 - 65.4)^2}{5} σ22=5(55−65.4)2+(65−65.4)2+(75−65.4)2+(72−65.4)2+(60−65.4)2
计算后得 σ 22 = 46.24 \sigma_{22} = 46.24 σ22=46.24。
-
计算协方差:
σ 12 = ( 160 − 170 ) ( 55 − 65.4 ) + ( 170 − 170 ) ( 65 − 65.4 ) + ( 180 − 170 ) ( 75 − 65.4 ) + ( 175 − 170 ) ( 72 − 65.4 ) + ( 165 − 170 ) ( 60 − 65.4 ) 5 \sigma_{12} = \frac{(160 - 170)(55 - 65.4) + (170 - 170)(65 - 65.4) + (180 - 170)(75 - 65.4) + (175 - 170)(72 - 65.4) + (165 - 170)(60 - 65.4)}{5} σ12=5(160−170)(55−65.4)+(170−170)(65−65.4)+(180−170)(75−65.4)+(175−170)(72−65.4)+(165−170)(60−65.4)计算后得 σ 12 = 43.5 \sigma_{12} = 43.5 σ12=43.5。
-
计算相关系数:
ρ 12 = σ 12 σ 11 σ 22 = 43.5 50 × 46.24 = 43.5 2312 = 0.9 \rho_{12} = \frac{\sigma_{12}}{\sqrt{\sigma_{11} \sigma_{22}}} = \frac{43.5}{\sqrt{50 \times 46.24}} = \frac{43.5}{\sqrt{2312}} = 0.9 ρ12=σ11σ22σ12=50×46.2443.5=231243.5=0.9相关系数为 0.9,说明身高和体重高度正相关,较高的人往往体重大。
总结
- 相关系数 ρ i j \rho_{ij} ρij 衡量变量 X i X_i Xi 和 X j X_j Xj 之间的线性相关性。
- 取值范围
−
1
≤
ρ
i
j
≤
1
-1 \leq \rho_{ij} \leq 1
−1≤ρij≤1:
- ρ i j > 0 \rho_{ij} > 0 ρij>0 表示正相关,数值越接近 1,相关性越强。
- ρ i j < 0 \rho_{ij} < 0 ρij<0 表示负相关,数值越接近 -1,相关性越强。
- ρ i j = 0 \rho_{ij} = 0 ρij=0 表示无线性相关性。
- 通过计算均值、方差、协方差,可以求得相关系数,用于分析数据之间的关系。
你可以用 Python 代码进行计算验证:
import numpy as np
X1 = np.array([160, 170, 180, 175, 165])
X2 = np.array([55, 65, 75, 72, 60])
rho = np.corrcoef(X1, X2)[0, 1] # 计算相关系数
print(f"相关系数: {rho:.2f}") # 结果应接近 0.9