相关系数简记

最新推荐文章于 2024-02-21 14:45:25 发布

原创最新推荐文章于 2024-02-21 14:45:25 发布 · 556 阅读

1 ·

CC 4.0 BY-SA版权

数据分析专栏收录该内容

2 篇文章

订阅专栏

pearson和spearman相关系数食用方法：

1.连续数据，正态分布，线性关系，用pearson相关系数是最恰当，当然用spearman相关系数也可以，效率没有pearson相关系数高。

2.上述任一条件不满足，就用spearman相关系数，不能用pearson相关系数。

3.两个定序测量数据之间也用spearman相关系数，不能用pearson相关系数。

pearson使用方法：scipy.stats.pearsonr( x， y )
spearman使用方法：scipy.stats.spearmanr(a, b=None, axis=0, nan_policy=‘propagate’)

但是上述二者只能观察是否线性相关。而互信息发可以观察非线性相关。

互信息：

Pearson和spearman相关系数存在一个问题是一般情况下只考虑了线性相关性，对非线性的变量相关性效果一般（源于计算协方差时的线性计算）。另一种互信息的方法解决了这种问题，互信息通过计算两个变量之间对整个熵的情况来说明这一问题，互信息指的是两个随机变量之间的关联程度，即给定一个随机变量后，另一个随机变量不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性。其公式如下。

原来我对X有些不确定(不确定性为H(X))，告诉我Y后我对X不确定性变为H(X|Y), （建议有数学背景的推倒一下公式）这个不确定性的减少量就是X,Y之间的互信息I(X;Y)=H(X)-H(X|Y)。互信息通过利用信息熵的方式来对特征之间的相关性进行衡量。克服了Pearson计算线性相关性的缺陷。但同时互信息法计算相关性带来的计算量的复杂度。

互信息食用方法：sklearn.metrics.normalized_mutual_info_score

定类变量

变量的一种，根据定性的原则区分总体各个案类别的变量。定类变量的值只能把研究对象分类，也即只能决定研究对象是同类抑或不同类，具有＝与≠的数学性质。例如性别区分为男性和女性两类；出生地区分为农村、城市、城镇三类；民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等；婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。这些变量的值，只能区别异同，属于定类层次。设计定类变量的各个类别时，要注意两个原则。一个是类与类之间要互相排斥，也即每个研究对象只能归入一类；另一个是所有研究对象均有归属，不可遗漏。例如性别分为男女两类，它既概括了人的性别的全部类别，同时类别之间又具有排斥性。

定序变量

变量的一种，区别同一类别个案中等级次序的变量。定序变量能决定次序，也即变量的值能把研究对象排列高低或大小，具有＞与＜的数学特质。它是比定类变量层次更高的变量，因此也具有定类变量的特质，即区分类别（＝，≠）。例如文化程度可以分为大学、高中、初中、小学、文盲；工厂规模可以分为大、中、小；年龄可以分为老、中、青。这些变量的值，既可以区分异同，也可以区别研究对象的高低或大小。但是，各个定序变量的值之间没有确切的间隔距离。比如大学究竟比高中高出多少，大学与高中之间的距离和初中与小学之间的距离是否相等，通常是没有确切的尺度来测量的。定序变量在各个案上所取的变量值只具有大于或小于的性质，只能排列出它们的顺序，而不能反映出大于或小于的数量或距离。

定距变量

也是变量的一种，区别同一类别个案中等级次序及其距离的变量。它除了包括定序变量的特性外，还能确切测量同一类别各个案高低、大小次序之间的距离，因而具有加与减的数学特质。但是，定距变量没有一个真正的零点。例如，摄氏温度这一定距变量说明，摄氏40度比30度高10度，摄氏30度比20度又高10度，它们之间高出的距离相等，而摄氏零度并不是没有温度。又比如调查数个地区的工人占全部劳动人口的比率时，发现甲、乙，丙、丁、戊五个地区的比率分别是2％、10％、35％、20％、10％。甲区与丙区相差33％，丙区与丁区相差15％。这也是一个定距变量。定距变量各类别之间的距离，只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。

定比变量

也是区别同一类别个案中等级次序及其距离的变量。定比变量除了具有定距变量的特性外，还具有一个真正的零点，因而它具有乘与除（×、÷）的数学特质。例如年龄和收入这两个变量，固然是定距变量，同时又是定比变量，因为其零点是绝对的，可以作乘除的运算。如A月收入是60元，而B是30元，我们可以算出前者是后者的两倍。智力商数这个变量是定距变量，但不是定比变量，因为其0分只具有相对的意义，不是绝对的或固定的，不能说某人的智商是0分就是没有智力；同时，由于其零点是不固定的，即使A是140分而B是70分，我们也不能说前者的智力是后者的两倍，只能说两者相差70分。因为0值是不固定的，如果将其向上移高20分，则A的智商变为120分而B变成50分，两者的相差仍是70分，但A却是B的2.4倍，而不是原先的两倍了。摄氏温度这一变量也如此。定比变量是最高测量层次的变量。