求相关系数时,比如皮尔逊相关系数,可以看出我们同时对x和y乘以一个系数时(或者线性变换),分子分母可以同时提取这个系数消掉,对相关系数ρXY\rho_{X Y}ρXY值没有影响
ρXY=∑(x−mx)(y−my)∑(x−mx)2∑(y−my)2
\rho_{X Y}=\frac{\sum\left(x-m_{x}\right)\left(y-m_{y}\right)}{\sqrt{\sum\left(x-m_{x}\right)^{2} \sum\left(y-m_{y}\right)^{2}}}
ρXY=∑(x−mx)2∑(y−my)2∑(x−mx)(y−my)
而其他情况下,大多数会受到归一化的影响。
比如协方差是相关系数乘以两个变量的标准差,标准差与是否归一化/标准化影响,因此在使用PCA等涉及协方差计算的情况,就必须进行归一化/标准化处理
ρXY=Cov(X,Y)D(X)D(Y)
\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}
ρXY=D(X)D(Y)Cov(X,Y)
本文探讨了在计算皮尔逊相关系数时,数据是否需要进行归一化或标准化的问题。内容指出,由于相关系数的计算特性,线性变换不会影响其值,但在涉及协方差和PCA等应用中,由于标准差受归一化影响,所以通常需要进行数据预处理。
327

被折叠的 条评论
为什么被折叠?



