22、数据相关性分析与降维技术详解

数据相关性与SVD降维详解

数据相关性分析与降维技术详解

1. 理解数据相关性

在数据分析中,变量之间的关系既可以通过图形直观呈现,也能借助统计估计进行量化。对于数值型变量,常用的估计方法是相关性分析,其中皮尔逊相关性最为知名,它是复杂线性估计模型的基础。而对于分类变量,常用关联分析,卡方统计量则是衡量特征间关联的常用工具。

1.1 协方差与相关性

协方差是衡量两个变量关系的首要指标,它能判断两个变量相对于各自均值的变化是否一致。若两个变量的单个值通常同时高于或低于各自均值,则它们呈正相关,协方差为正数,数值越大,相关性越强;若一个变量值通常高于均值,另一个低于均值,则呈负相关,协方差为负数;若两者无系统的一致或不一致变化,协方差趋近于零,表明变量相互独立。

在实际应用中,我们可以使用 pandas 计算协方差矩阵。以鸢尾花数据集为例:

iris_dataframe.cov()

通过观察协方差矩阵的不同行列组合,可以确定所选变量之间的协方差值。不过,变量的尺度会影响协方差,因此需要使用标准化的相关性度量。相关性是对变量进行标准化后的协方差估计,同样可以使用 pandas 轻松计算:

iris_dataframe.corr()

相关性值介于 -1 和 +1 之间,能更清晰地反映变量间的关系。此外,还可以通过 NumPy 命令计算协方差和相关性矩阵:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值