定义
统计上,经常用Pearson矩相关系数来衡量两个变量X和Y的线性相关性,皮尔逊相关系数介于-1和1之间,1代表完全正相关,0代表不相关,-1代表完全负相关。两个变量的皮尔逊相关系数定义为这两个变量的协方差除以它们的标准差乘积。
对于总体,我们记皮尔逊相关系数为ρ,计算公式为
ρX,Y=cov(X,Y)σXσY
这里,
(cov)代表协方差,
σX代表
X的标准误。因为
X,Y的协方差计算公式为
cov(X,Y)=E[(X−μx)(Y−μY)]
所以上面的相关系数计算公式还可以写为
ρX,Y=E[(X−μX)(Y−μY)]σXσYσXσY
这里,
μX代表
X的均值,
E代表期望。
ρ还可以写成非中心矩的形式。因为
μX=E(X)μY=E(Y)σ2X=E[(X−E(X))2]=E(X2)−E(X)2σ2Y=E[(X−E(Y))2]=E(Y2)−E(Y)2E[(X−μX)(Y−μY)]=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
所以上面的公式还可以写为
ρX,Y=E(XY)−E(X)E(Y)E(X2)−E(X)2−−−−−−−−−−−−−√E(Y2)−E(Y)2−−−−−−−−−−−−√
对于样本,我们用
r代表样本皮尔逊相关系数。我们可以用样本协方差和标准差代替总体方差和标准差来计算样本相关系数。比如
(x1,x2,...,xn)为一组观测样本,
(y1,y2,...,yn)为另外一组观测样本,那么
r的计算公式就可以写为:
r=rxy=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2−−−−−−−−−−−√∑ni=1(yi−y¯)2−−−−−−−−−−−√
这里
n代表样本个数,
x¯代表样本均值,
y¯类似。简单的推导可以得出这个公式的三个等价形式:
r=rx,y=∑xiyi−nx¯y¯(∑x2i−nx¯2)−−−−−−−−−−−√(∑y2i−ny¯2)−−−−−−−−−−−√
r=rx,y=1n−1∑i=1n(xi−x¯sx)(yi−y¯sy)
以及
r=rx,y=∑xiyi−nx¯y¯(n−1)sxsy
这里
sx=1n−1∑ni=1(xi−x¯)2−−−−−−−−−−−−−−√代表样本标准误差,而
(xi−x¯sx)就是样本的标准分数或者z-分数。
皮尔逊相关系数的数学性质及几何意义
不论是样本还是总体,皮尔逊相关系数绝对值总是小于等于1的。如果相关系数等于1或者−1,对于样本来说代表样本点完全在同一条直线上,对于总体来说两个变量的分布由一条直线支撑。同时皮尔逊相关系数具有对称性,即corr(X,Y)=corr(Y,X).。
皮尔逊相关系数一个非常重要的性质就是不随着两个变量的位置改变、大小缩放而改变。比如,把X变为a+bX,把Y变为c+dY不改变它们之间的相关系数,这里a,b,c,d为定值且b和d大于0。也就是说,一般的线性变换不改变它们的相关系数。
下面是几个皮尔逊相关系数的例子。

相关系数介于0和1之间。相关系数为1就意味着X和Y落在同一条直线上,呈正相关,Y随着X的增大而增大,随着X的减小而减小。相关系数为−1说明X,Y负相关,相关系数为0就意味着X和Y没有线性相关关系。
更一般的,当且仅当Xi和Yi落在各自均值的同一侧时,(Xi−X¯¯¯)(Yi−Y¯¯¯)为正。因此当Xi和Yi相对于均值倾向于同时增加或者同时减小时相关系数为正。反之,相关系数为负。而且这种趋势越强就说明相关系数的绝对值越大。
如果数据经过了标准化处理,那么皮尔逊相关系数表示的就是这两个n维向量夹角的余弦值。也就是说如果有x¯=0,y¯=0,则相关系数就可以变为
rx,y=∑xiyi∑x2i−−−−√∑y2i−−−−√=x⋅y||x||⋅||y||=cos(x,y)
注意事项
皮尔逊相关系数非常有用,但也不能滥用,我们来看一些需要注意的地方。
- 皮尔逊相关系数是一个线性关系测度,但r比较小不能代表变量间没有关系,只能说明变量间没有线性关系或者线性关系比较弱。实际上变量间可能存在非线性关系(下图有几个非线性关系例子),对数据进行一些合适的变换可以增大它们之间的线性关系。
- 解释相关系数时要考虑实际情况。比如你可能计算出一些人鞋子大小和智商高低相关系数非常大,但这很显然是不合理的,这时相关系数比较大可能仅仅是巧合。
- 相关不代表因果,不能把相关系数和因果关系混在一起。比如夏天冰激凌销量大,冷饮销量也比较大,它们之间存在相关关系,但我们不能说是冰激凌销量大导致冷饮销量也大,这完全是两码事,实际上温度才是导致它们销量上升的原因。
- 相关系数和回归系数也要区分开,相关系数不代表直线斜率。
