机器学习数学基础:30.Pearson相关系数及t检验教程

Pearson相关系数及t检验教程

一、定义与原理

Pearson相关系数

Pearson相关系数(记为 ρ X , Y \rho_{X,Y} ρX,Y)用于衡量两个变量 X X X Y Y Y之间线性相关的强度与方向,取值范围在 − 1 -1 1 1 1 1之间。公式为 ρ X , Y   = cov ( X , Y ) σ X σ Y   = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y \rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}\ =\frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y} ρX,Y =σXσYcov(X,Y) =σXσYE[(XμX)(YμY)],其中 cov ( X , Y ) \text{cov}(X,Y) cov(X,Y)是协方差,反映两个变量的总体误差; σ X \sigma_X σX σ Y \sigma_Y σY分别是 X X X Y Y Y的标准差,衡量变量的离散程度; μ X \mu_X μX μ Y \mu_Y μY分别是 X X X Y Y Y的均值。值为正表示正相关,为负表示负相关,绝对值越接近 1 1 1,线性相关越强;接近 0 0 0,线性相关越弱。

t检验

在Pearson相关系数的应用中,t检验用于检验总体中两个变量是否真的存在线性相关关系。因为样本计算出的相关系数可能受到抽样误差的影响,通过t检验可以判断基于样本得到的相关关系在总体层面是否具有统计学意义。

二、计算步骤

计算Pearson相关系数

  1. 准备数据:收集两个变量 X X X Y Y Y n n n组观测值 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) (x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n) (x1,y1),(x2,y2),,(xn,yn)
  2. 计算均值 μ X   = 1 n ∑ i   = 1 n x i \mu_X \ = \frac{1}{n}\sum_{i \ = 1}^{n}x_i μX =n1i =1nxi μ Y   = 1 n ∑ i   = 1 n y i \mu_Y \ = \frac{1}{n}\sum_{i \ = 1}^{n}y_i μY =n1i =1nyi
  3. 计算协方差 cov ( X , Y )   = 1 n ∑ i   = 1 n ( x i − μ X ) ( y i − μ Y ) \text{cov}(X,Y)\ =\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)(y_i - \mu_Y) cov(X,Y) =n1i =1n(xiμX)(yiμY)
  4. 计算标准差 σ X   = 1 n ∑ i   = 1 n ( x i − μ X ) 2 \sigma_X\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)^2} σX =n1i =1n(xiμX)2 σ Y   = 1 n ∑ i   = 1 n ( y i − μ Y ) 2 \sigma_Y\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(y_i - \mu_Y)^2} σY =n1i =1n(yiμY)2
  5. 计算相关系数:将协方差和标准差代入公式 ρ X , Y   = cov ( X , Y ) σ X σ Y \rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y} ρX,Y =σXσYcov(X,Y)

进行t检验

  1. 建立假设
    • 原假设 H 0 H_0 H0:总体的相关系数 ρ   = 0 \rho \ = 0 ρ =0,即总体中两个变量之间不存在线性相关关系。
    • 备择假设 H 1 H_1 H1:总体的相关系数 ρ ≠ 0 \rho\neq 0 ρ=0,即总体中两个变量之间存在线性相关关系。
  2. 计算t统计量:公式为 t   = r n − 2 1 − r 2 t\ =\frac{r\sqrt{n - 2}}{\sqrt{1 - r^{2}}} t =1r2 rn2 ,其中 r r r为计算得到的Pearson相关系数, n n n为样本数量。
  3. 确定临界值:根据给定的显著性水平 α \alpha α(常用 0.05 0.05 0.05)和自由度 d f   = n − 2 df \ = n - 2 df =n2,查阅 t t t分布表得到临界值 t α / 2 ( n − 2 ) t_{\alpha/2}(n - 2) tα/2(n2)
  4. 做出决策
    • 如果 ∣ t ∣ > t α / 2 ( n − 2 ) \vert t\vert>t_{\alpha/2}(n - 2) t>tα/2(n2),则拒绝原假设 H 0 H_0 H0,认为总体中两个变量之间存在线性相关关系。
    • 如果 ∣ t ∣ ≤ t α / 2 ( n − 2 ) \vert t\vert\leq t_{\alpha/2}(n - 2) ttα/2(n2),则不能拒绝原假设 H 0 H_0 H0,即没有足够证据表明总体中两个变量之间存在线性相关关系。

三、实例演示

研究每周运动时间 X X X(小时)和体重减少量 Y Y Y(千克)的关系,选取 6 6 6名参与者的数据:

参与者 X X X Y Y Y
131
252
341.5
462.5
520.5
673

计算Pearson相关系数

  1. 均值: μ X   = 3 + 5 + 4 + 6 + 2 + 7 6   = 4.5 \mu_X\ =\frac{3 + 5 + 4 + 6 + 2 + 7}{6}\ =4.5 μX =63+5+4+6+2+7 =4.5 μ Y   = 1 + 2 + 1.5 + 2.5 + 0.5 + 3 6   = 1.75 \mu_Y\ =\frac{1 + 2 + 1.5 + 2.5 + 0.5 + 3}{6}\ =1.75 μY =61+2+1.5+2.5+0.5+3 =1.75
  2. 协方差: cov ( X , Y )   = ( 3 − 4.5 ) × ( 1 − 1.75 ) + ( 5 − 4.5 ) × ( 2 − 1.75 ) + ( 4 − 4.5 ) × ( 1.5 − 1.75 ) + ( 6 − 4.5 ) × ( 2.5 − 1.75 ) + ( 2 − 4.5 ) × ( 0.5 − 1.75 ) + ( 7 − 4.5 ) × ( 3 − 1.75 ) 6 ≈ 1.375 \text{cov}(X,Y)\ =\frac{(3 - 4.5)\times(1 - 1.75)+(5 - 4.5)\times(2 - 1.75)+(4 - 4.5)\times(1.5 - 1.75)+(6 - 4.5)\times(2.5 - 1.75)+(2 - 4.5)\times(0.5 - 1.75)+(7 - 4.5)\times(3 - 1.75)}{6}\approx1.375 cov(X,Y) =6(34.5)×(11.75)+(54.5)×(21.75)+(44.5)×(1.51.75)+(64.5)×(2.51.75)+(24.5)×(0.51.75)+(74.5)×(31.75)1.375
  3. 标准差: σ X   = ( 3 − 4.5 ) 2 + ( 5 − 4.5 ) 2 + ( 4 − 4.5 ) 2 + ( 6 − 4.5 ) 2 + ( 2 − 4.5 ) 2 + ( 7 − 4.5 ) 2 6 ≈ 1.87 \sigma_X\ =\sqrt{\frac{(3 - 4.5)^2+(5 - 4.5)^2+(4 - 4.5)^2+(6 - 4.5)^2+(2 - 4.5)^2+(7 - 4.5)^2}{6}}\approx1.87 σX =6(34.5)2+(54.5)2+(44.5)2+(64.5)2+(24.5)2+(74.5)2 1.87 σ Y   = ( 1 − 1.75 ) 2 + ( 2 − 1.75 ) 2 + ( 1.5 − 1.75 ) 2 + ( 2.5 − 1.75 ) 2 + ( 0.5 − 1.75 ) 2 + ( 3 − 1.75 ) 2 6 ≈ 0.94 \sigma_Y\ =\sqrt{\frac{(1 - 1.75)^2+(2 - 1.75)^2+(1.5 - 1.75)^2+(2.5 - 1.75)^2+(0.5 - 1.75)^2+(3 - 1.75)^2}{6}}\approx0.94 σY =6(11.75)2+(21.75)2+(1.51.75)2+(2.51.75)2+(0.51.75)2+(31.75)2 0.94
  4. 相关系数: r   = 1.375 1.87 × 0.94 ≈ 0.78 r\ =\frac{1.375}{1.87\times0.94}\approx0.78 r =1.87×0.941.3750.78

进行t检验

  1. 计算 t t t统计量: t   = 0.78 6 − 2 1 − 0.7 8 2 ≈ 2.84 t\ =\frac{0.78\sqrt{6 - 2}}{\sqrt{1 - 0.78^{2}}}\approx2.84 t =10.782 0.7862 2.84
  2. 设显著性水平 α   = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f   = 6 − 2   = 4 df \ = 6 - 2 \ = 4 df =62 =4,查 t t t分布表得 t 0.025 ( 4 )   = 2.776 t_{0.025}(4)\ =2.776 t0.025(4) =2.776
  3. 因为 ∣ 2.84 ∣ > 2.776 \vert 2.84\vert>2.776 ∣2.84∣>2.776,拒绝原假设 H 0 H_0 H0,认为总体中每周运动时间和体重减少量之间存在线性相关关系。

四、注意事项

  1. 数据要求:Pearson相关系数理想情况是变量服从正态分布,样本量足够大时对非正态有一定稳健性。同时,t检验的有效性也依赖于数据的正态性假设。
  2. 关系性质:Pearson相关系数仅衡量线性相关,若变量间存在非线性关系,可能得出错误结论。
  3. 因果关系:相关不代表因果,两个变量相关可能是受其他未考虑因素的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值