分类
- 组内(同类)相关intraclass
- 组间相关interclass
- Pearson相关
- 等级相关
- Spearman's ρ 特例:point-biserial correlation
- Kendall's τ
- Goodman and Kruskal's γ
- Somers' D
类别 |
检验方法 |
简述 |
取值 |
适用数据类型 |
说明 |
线性相关 |
Pearson correlation |
试图用一条直线最好地拟合两组数据,相关系数则表示了数据点到这条直线的距离,即数据点多大程度上fit这个模型 |
0:不相关 >0:正相关 <0:负相关 相关性越强,值越接近±1 |
1. 定距尺度或定比尺度 2. 数据呈近似正态分布 3. 数据为线性关系 3. outliers数量很少或完全没有。*Outliers对结果影响很大,若不能删除这些点,考虑使用Spearman's Rank-Order或Kendall's Tau Correlation 4. 两组数据是homoscedasticity 的 |
相关系数的值与直线的斜率没有关系,只是表示点相对直线的离散程度。 无法给出cause-and-effect 关系 |
等级相关 |
Spearman's Rank-Order |
是Pearson correlation的非参数版,适用范围更广。相关系数表示了两组排好序的数据是否包含了单调关系的成分,及其强弱和方向。 |
同Pearson correlation |
1. 定序、定距或定比尺度 2. 数据呈单调关系
|
当Pearson correlation的假定条件不满足时,可用该方法。 |
point-biserial correlation |
是Pearson correlation的特殊情况:一个为连续变量,一个为二分类变量 |
同Pearson correlation |
1. 一个为连续变量,一个为二分类变量 2. 没有outlier 3. 所属每一类的连续变量都近似正态分布(可用shapiro-wilk检验) 4. 所属每一类的连续变量都有相等的方差(可用Levene’s检验) |
| |
Kendall's rank correlation |
是Pearson correlation非参数版的替代,也是Spearman's Rank-Order的替代。用来衡量两个定序尺度的数据的相关性强弱和方向。 |
0:不相关 >0:趋于一致的等级相关性 <0:趋于相反的的等级相关性 相关性越强,值越接近±1 |
1. 两个变量为定序尺度 2. Kendall's rank correlation是衡量变量间的单调关系。若变量存在单调关系,则该系数才具有意义 |
与Spearman's Rank-Order相比,该系数仅受观测量rank是否相等影响,rank间的距离大小并不会影响。 |
变量尺度说明
定类尺度:只能测度事物之间的类别差,其他差别无法得知。如按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类。
定序尺度:不仅可以测度类别差,还可以测度次序差。不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算。人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。
定距尺度:可以进行加、减运算,不能进行乘、除运算。如30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。
定比尺度:不仅可以进行加减运算,还可以进行乘除运算。如绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。