13、数据统计分析:从基础到高级应用

数据统计分析:从基础到高级应用

1. 数据洞察:相关性分析

在数据分析中,拥有数据只是第一步,更重要的是从数据中获取可操作的洞察。以Facebook好友数量与幸福感之间的关系为例,我们可以提出以下三种假设:
- 在线好友数量与幸福感呈正相关(一方增加,另一方也增加)。
- 两者呈负相关(好友数量增加,幸福感下降)。
- 变量之间无关联(一方变化,另一方变化不大)。

为了验证这些假设,我们引入相关系数的概念。相关系数是描述两个变量之间关联强度的定量指标,其取值范围在 -1 到 1 之间:
- 绝对值越接近 -1 或 1,变量间的关系越强。
- 最强相关为 -1 或 1,最弱相关为 0。
- 正相关表示一个变量增加时,另一个变量也倾向于增加。
- 负相关表示一个变量增加时,另一个变量倾向于减少。

使用 pandas 可以快速计算 DataFrame 中各特征之间的相关系数,示例代码如下:

df.corr()  # 计算变量间的相关性

假设得到的好友数量与幸福感的相关系数约为 -0.2,这意味着每增加 1 个好友,幸福感大约降低 0.2 个单位。需要注意的是,相关系数矩阵有两个特点:
- 矩阵对角线元素为 1,因为变量与自身的相关性是完全正相关。
- 矩阵关于对角线对称。

不过,信任相关系数也有一些注意事项:
- 相关系数通常衡量的是变量间的线性关系。若未显示明显相关性,不代表变量间无关系,可能存在非线性关系。
- 相关性并不意味着因果关系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值