线性回归之相关系数分类及其Python实例

本文介绍了三种相关系数:Pearson、Spearman 和 Kendall 的区别及适用场景,并通过实例演示了如何使用 Python Pandas 计算不同数据类型之间的相关性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相关系数的类型:

 

 

三种相关系数区别以及计算:

两组数据间的相关性计算可以分为如下3种情况:

1 数值数据与分类数据
2 数值数据与数值数据
3 分类数据与分类数据
计算相关性用到的方法有pearson、spearman、kendall,具体区别如下表所示:

分析方法数据类型数据分布数据间的关系
pearson数值和数值正态分布线性
spearman

数值和数值

数值和分类

分类和分类

不做要求不做要求
kendall数值和数值

数值和分类

分类和分类
不作要求不作要求

注:

kendall和spearman属于秩相关;
满足pearson相关系数的数据也可以用spearman计算;
kendall的结果偏小,不建议用。

 

2.1 数值与数值的相关性
 

import pandas as pd
 
data = pd.DataFrame({'化妆品费': [30, 50, 120, 20, 70, 150, 50, 60, 80, 100],
                     '置装费': [70, 80, 250, 50, 120, 300, 100, 150, 20, 180]})
print(data.corr()) # 计算所有的变量的两两相关性
print(data['化妆品费'].corr(data['置装费'])) # 只计算选择的两个变量的相关性

 

2.2 数值与分类的相关性:(代码结果在注释里)

# 情况1:分类标签为数字
data = pd.DataFrame({'id': [3, 2, 1, 1, 2, 3, 2, 3, 1, 1, 2, 3, 1, 2, 1],
                     'age': [27, 33, 16, 29, 32, 23, 25, 28, 22, 18, 26, 26, 15, 29, 26]})
print('pearson:', data['id'].corr(data['age']))  # pearson: 0.4465155114816965
print('spearman', data['id'].corr(data['age'], method='spearman'))  # spearman 0.4016086046008866
print(data.corr(method='spearman'))
"""
        id       age
id   1.000000  0.401609
age  0.401609  1.000000
"""

# 情况2:分类标签为字符串
data1 = pd.DataFrame({'id': ['c', 'b', 'a', 'a', 'b', 'c', 'b', 'c', 'a', 'a', 'b', 'c', 'a', 'b', 'a'],
                      'age': [27, 33, 16, 29, 32, 23, 25, 28, 22, 18, 26, 26, 15, 29, 26]})
print('spearman', data1['id'].corr(data1['age'], method='spearman'))  # spearman 0.4016086046008866

2.3 分类与分类的相关性:(基本不用)

data1 = pd.DataFrame({'id': ['c', 'b', 'a', 'a', 'b', 'c', 'b', 'c', 'a', 'a', 'b', 'c', 'a', 'b', 'a'],
                     'age': ['1', '2', '3', '3', '2', '1', '2', '3', '1', '1', '2', '3', '1', '2', '1']})
print('kendall', data1['id'].corr(data1['age'], method='kendall'))
print('spearman', data1['id'].corr(data1['age'], method='spearman'))
 
# 输出
# kendall 0.1891891891891892
# spearman 0.19191919191919193


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值