【特征相关性分析】对数据集特征进行相关性计算和绘图

最新推荐文章于 2025-09-20 09:42:29 发布

原创最新推荐文章于 2025-09-20 09:42:29 发布 · 1.7w 阅读

CC 4.0 BY-SA版权

文章标签：

156 篇文章

订阅专栏

132 篇文章

订阅专栏

本文介绍如何使用Python的pandas库对数据集特征进行相关性分析，通过计算相关系数来理解特征之间的联系。利用iris数据集为例，展示了如何转换数据、计算相关性并用热图可视化结果。

当不知道数据集特征的含义时，可直接对数据集特征进行相关性分析，查看特征的相关系数。

让我们开始把！

from sklearn import datasets
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
iris = datasets.load_iris()

irisData = pd.DataFrame(iris.data,columns=iris.feature_names)
irisData.head()

数据看起来不错，继续...

参数:	method : {‘pearson’, ‘kendall’, ‘spearman’} pearson : standard correlation coefficient 皮尔逊：标准相关系数 kendall : Kendall Tau correlation coefficient kendall：Kendall Tau相关系数 spearman : Spearman rank correlation spearman：斯皮尔曼等级相关 min_periods : int, optional 每对列所需的最小观察数，以获得有效结果。目前仅适用于皮尔森和斯皮尔曼相关

irisData.corr()

使用seaborn的heatmap()函数绘制热图

plt.figure(figsize=(10,10))
sns.heatmap(irisData.corr(),annot=True)

越接近于1的特征相关度越高。