机器学习特征工程之皮尔森相关系数 pearson correlation of features

最新推荐文章于 2024-10-24 03:14:56 发布

原创

最新推荐文章于 2024-10-24 03:14:56 发布 · 3.9k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #特征工程 #皮尔森相关系数

本文介绍了如何使用皮尔森相关系数来检测机器学习模型中的特征相关性，通过Python的seaborn和matplotlib库绘制热力图进行可视化。当系数接近1或-1时，表示特征间存在强相关性，可考虑去除重复特征，优化模型输入。通过计算协方差并标准化，得到-1到1的范围，以评估相关性的强度。

示例图：

皮尔森相关系数为了确定每个特征之间是否紧密相关，如果很相关就属于重复特征，可以去除。我们输入机器学习模型中的每个特征都独一无二，这才是最佳。

python实现代码

import seaborn as sns #图表模块

import matplotlib.pyplot as plt #绘图模块库

colormap = plt.cm.RdBu # 绘图库中的颜色查找表。比如A1是红色,A2是浅蓝色。这样一种映射关系

plt.figure(figsize=(14,12))#创建一个新的图表，参数是尺寸，单位为英寸。

plt.title('Pearson Correlation of Features', y=1.05, size=15) #给图表一个标题~~

sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0,square=True, cmap=colormap, linecolor='white', annot=True) #将皮尔森系数值画成图表形式。

代码解释：

这里的train.astype(float).corr() 中的train 是python pandas模块中DateFrame结构，这里存储着的是机器学习模型的训练数据，然后通过.corr()求皮尔森相关系数方法，计算出相关系数。

corr()是correlation的缩写，中文意思为相关。

算法底层原

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。