示例图:

皮尔森相关系数为了确定 每个特征之间是否紧密相关,如果很相关就属于重复特征,可以去除。 我们输入机器学习模型中的每个特征都独一无二,这才是最佳。
python实现代码
import seaborn as sns #图表模块
import matplotlib.pyplot as plt #绘图模块库
colormap = plt.cm.RdBu # 绘图库中的颜色查找表。比如A1是红色,A2是浅蓝色。 这样一种映射关系
plt.figure(figsize=(14,12))#创建一个新的图表,参数是尺寸,单位为英寸。
plt.title('Pearson Correlation of Features', y=1.05, size=15) #给图表一个标题~~
sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0,square=True, cmap=colormap, linecolor='white', annot=True) #将皮尔森系数值画成图表形式。
代码解释:
这里的train.astype(float).corr() 中的train 是python pandas模块中DateFrame结构,这里存储着的是机器学习模型的训练数据, 然后通过.corr()求皮尔森相关系数方法,计算出相关系数。
corr()是correlation的缩写,中文意思为相关。
算法底层原

本文介绍了如何使用皮尔森相关系数来检测机器学习模型中的特征相关性,通过Python的seaborn和matplotlib库绘制热力图进行可视化。当系数接近1或-1时,表示特征间存在强相关性,可考虑去除重复特征,优化模型输入。通过计算协方差并标准化,得到-1到1的范围,以评估相关性的强度。
最低0.47元/天 解锁文章
7855

被折叠的 条评论
为什么被折叠?



