#数据集链接:https://pan.baidu.com/s/1U0XDJmi_lYI84UkPHgpDfA
#提取码:1234
#导入相关库并打开CSV文件
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
Bao = pd.read_csv("D:/天池竞赛/精灵宝可梦数据集分析/pokemon0820.csv")
#对数据进行空值检测
print(Bao.isnull().sum(axis=0))
空值运行结果如下:
#对空值进行删除操作
Bao_1 = Bao.dropna()
Bao_1
#对正常数据进行皮尔逊相关性展示
Bao_1.corr()
相关性检测结果:
#实验皮尔逊相关性输出各项特征之间的相关性,相关性大于0.4以上成为强相关性
Bao_1.corr()[(Bao_1.corr()>0.4) & (Bao_1.corr() != 1)]
#绘制强相关性热力图,颜色加深的地方说明横纵坐标特征具有强相关性,图像与对角线呈对称分布,颜色越深相关性越强
plt.figure(figsize=(25,25))
sns.heatmap(Bao_1.corr(), cmap="YlGnBu",annot=True, vmin=0.4)