机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图

Michael_Flemming

已于 2022-10-04 21:14:06 修改

阅读量1.3k

点赞数

文章标签：机器学习 python 深度学习

于 2022-10-03 22:22:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44360866/article/details/127156830

版权

双变量的相关性图

双变量的散点图
连续型+连续型
两个变量是否线性相关 or 其他非线性关系。
plt.scatter()
小提琴图
类别型+连续性
结合箱型图+密度图
双变量分析，横轴是不同类别，纵轴是连续变量的分布情况。
sns.violinplot()【import seaborn as sns】

所有变量的相关性分析图

热力图
先算出所有变量的相关系数矩阵，根据这个矩阵画出热力图。
sns.heatmap(corr_matrix)

异常值分析的图

箱型图
plt.boxplot(dataframe, labels=dataframe.columns)
sns.boxplot()
异常值分析倒是也可以用散点图直接看出来。

查看连续性变量分布的图

作用：

训练集和测试集的分布是否一致？
变量是否是正太分布的？

直方图
plt.hist()
kde核密度估计图
可以看作直方图的加窗平滑。
sns.kdeplot()：只有kde曲线
sns.distplot()：kde曲线+直方图
QQ图
用来看数据是否符合一个分布，符合的话，QQ图的点应该都在直线上。
scipy.stats.probplot()

查看离散变量分布的图

频率分布图

线性回归关系图

主要用于分析变量之间的线性回归关系。一般是看所有特征变量和 target 之间是否有线性关系。
sns.regplot()

下面是一些图举例

散点图，双连续变量，线性关系分析。
在这里插入图片描述
小提琴图，连续+离散变量分析。

箱型图的异常值分析。

散点图也可以做异常值分析。

kde + 直方图(左)，QQ图(右)
在这里插入图片描述
分析每一个特征变量是不是正太分布。

用kde图分析训练集、测试集的分布是否一致。

线性回归关系图
在这里插入图片描述
热力图分析所有特征变量之间以及所有特征变量和 target 的相关性。

查看做Box-Cox变换前后的分布情况。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。