0. 引言
相关性测量在工业检测(尺寸测量)中经常会用到,比如你用相机测得工件的宽度与精密仪器测的宽度进行相关性测试,一般客户会要求相关性达到85%,个别会要求达到90%以上。
那么相关性该如何测试呢,公式是什么?
1. Pearson 相关系数
统计学有三大相关系数:pearson(皮尔森)相关系数、spearman(斯皮尔曼)相关系数和kendall(肯德尔)相关系数。其中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标,这两应用中目前没接触过。pearson相关系数应用领域比较广泛。
Pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势。
当两个变量的线性关系增强时,相关系数趋于1或-1;
当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;
如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;
如果相关系数等于0,表明它们之间不存在线性相关关系。
Pearson相关系数等于两个变量的协方差除以两个变量的标准差,公式如下:
【注】:
协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,则协方差为负值。
其中u表示X的期望E(X), v表示Y的期望E(Y)。
相关系数也被称为一种剔除了两个变量量纲影响、标准化后的特殊协方差,具有两个性质:
①也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负;
②它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度;
2. Pearson系数对绝对数值不敏感,pearson描述的是两组数据变化移动的趋势
考虑这三组数据,1:(1.0,2.0,3.0,4.0), 2:(40.0,50.0,70.0,80.0), 3:(50.0,60.0,70.0,80.0),
我们可以直观的认为2和3更为相似,它们的重叠评分数目一致,趋势也相同,记录1虽然也满足上述的条件,但是它整体数值很低。
在现实中,有人习惯于给出更高的评分,而有人则恰恰相反。
利用pearson计算它们之间的相似度为:
1&2: 0.9899494936611665
2&3: 0.9899494936611665
1&3: 0.9999999999999999
可以看出pearson系数对绝对数值并不敏感,它确实只是描述了两组数据变化的趋势。
3. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。
(1)、当相关系数为0时,X和Y两变量无关系。
(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
4. pearson皮尔森相关系数
皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
(1)、两个变量之间是线性关系,都是连续数据。
(2)、两个变量的总体是正态分布,或接近正态的单峰分布。
(3)、两个变量的观测值是成对的,每对观测值之间相互独立。
5. 小结
6. Excel中的相关性分析,可采用RSQ(known_y's,known_x's);RSQ返回pearson相关系数的平方,又称R平方;
7. 另一相关系数的公式如下:
①相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何;
②非线性相关也会导致线性相关系数很大;
③做pearson相关判定时,先做散点图,观察两变量的散点是否趋于一条直线,也可以这样说,两个变量是否是线性关系。只有知道了两个变量是线性关系的才能有pearson相关系数;
④做pearson相关分析时,两个变量的联合变量必须符合正态分布,但不是说两个变量各自必须符合正态分布,一般情况下,其中一个变量符合正态分布的时候,同样可以进行线性相关分析,而且结果也相当可靠。
⑤如果样本变量中存在极端值,可以对极端值进行剔除,然后再进行相关分析。又或数据不合适线性分析时,可以先对数据进行调整,比如取对数后,再进行相关分析。
8. 思考一个问题,如何才能提高两个变量的相关性呢,相关性增长的影响因素是什么?
本篇文章参考:
1. https://blog.youkuaiyun.com/wenbingoon/article/details/17414063
2. http://www.cnblogs.com/kemaswill/archive/2012/11/01/2749842.html
3. https://blog.youkuaiyun.com/wangdong1106/article/details/52590447
4. https://blog.youkuaiyun.com/SZuoDao/article/details/52314420?locationNum=7
5. https://blog.youkuaiyun.com/witforeveryang/article/details/42585791
6. https://www.zhihu.com/question/20852004
7. http://www.doc88.com/p-1476192606238.html