python数据挖掘笔记——相关分析

这篇博客探讨了Python数据挖掘中的相关性分析,包括散点图初步判断、皮尔逊和斯皮尔曼相关系数,并介绍了相关系数的方向和量级。文中还提供了使用Pandas和Numpy进行相关性计算的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相关性分析:

对两个或多个具备相关性的元素变量进行分析,从而衡量两个变量之间的密切相关程度,相关性的元素之间要存在一定的联系或概率才可以进行相关性分析。

相关性分析的几个方法:

  • 图示初判(散点图,基本呈一条直线分布)
  • Pearson相关系数(皮尔逊相关系数)
  • Sperman秩相关系数(斯皮尔曼相关系数)

相关系数:
相关系数是变量间关联程度的最基本的测度之一。
基本特征:

方向:

  • 正相关,两个变量变化方向相同。

  • 负相关,两个变量变化方向相反。
    量级:

  • 低度相关:0<=|r|<0.3

  • 中度相关:0.3<=|r|<0.8

  • 高度相关:0.8<=|r|<=1

下面是代码演示:

#构建样本数据
data1=pd.Series(np.random.rand(100)*100).sort_values()#标准正态分布100个样本
data2=pd.Series(np.random.rand(100)*50).sort_values()
data=pd.DataFrame({'values1':data1.values,'values2':data2.values})
print(data.head())
#计算皮尔逊相关系数
#均值
data1MEAN=np.mean(data1)
data2MEAN=np.mean(data2)
#标准差
data1SD=np.std(data1)
data2SD=np.std(data2)
#Z分数
Zda
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值