当做数据分析,或者数据挖掘,来做二分类或者多目标分类任务时,需要分析目标和其他数据的相关性
kaggle经典项目Titanic就是通过数据来进行生存率的预测,在数据处理时采用了Correlation Heatmaps的方法。处理结果如下图

其他项目中的相关性热力图处理后的效果

在其他文章中详细介绍了如何使用python中的seaborn库来绘制热力图,其热力图效果如下所示。介绍的非常详细,可以尝试进行使用。



其他文章中,介绍了一种我比较喜欢的风格,大家也可以进行学习

接下来,介绍我在kaggle中发现使用r语言官方库提供的corr heatmaps的绘制,我很喜欢的风格。完成效果如下。软件包的各种花里胡哨的画法在R Corrplot软件包简介,绘制相关热图-优快云博客中也有详细介绍。

其中遇到的问题包括出现❓的情况,经过排查,是数据中有缺失值导致的。使用处理语句如下
raw.data <- read.csv("xxx/xxx") #读入数据,数据格式为dataframe
raw.data <- na.omit(raw.data) #删除数据中缺失值的行
完成后,快速画图
library(corrplot) #加载库
correlations <- cor(raw.data,method="pearson") #进行相关分析
corrplot(correlations, number.cex = .9, method = "circle", type = "full", tl.cex=0.8,tl.col = "black") #绘图