数据相关性分析与降维技术详解
1. 理解数据相关性
在数据分析中,变量之间的关系既可以通过图形直观呈现,也能借助统计估计进行量化。对于数值型变量,常用的估计方法是相关性分析,其中皮尔逊相关性最为知名,它是复杂线性估计模型的基础。而对于分类变量,常用关联分析,卡方统计量则是衡量特征间关联的常用工具。
1.1 协方差与相关性
协方差是衡量两个变量关系的首要指标,它能判断两个变量相对于各自均值的变化是否一致。若两个变量的单个值通常同时高于或低于各自均值,则它们呈正相关,协方差为正数,数值越大,相关性越强;若一个变量值通常高于均值,另一个低于均值,则呈负相关,协方差为负数;若两者无系统的一致或不一致变化,协方差趋近于零,表明变量相互独立。
在实际应用中,我们可以使用 pandas 计算协方差矩阵。以鸢尾花数据集为例:
iris_dataframe.cov()
通过观察协方差矩阵的不同行列组合,可以确定所选变量之间的协方差值。不过,变量的尺度会影响协方差,因此需要使用标准化的相关性度量。相关性是对变量进行标准化后的协方差估计,同样可以使用 pandas 轻松计算:
iris_dataframe.corr()
相关性值介于 -1 和 +1 之间,能更清晰地反映变量间的关系。此外,还可以通过 NumPy 命令计算协方差和相关性矩阵:
数据相关性与SVD降维详解
超级会员免费看
订阅专栏 解锁全文
4476

被折叠的 条评论
为什么被折叠?



