数据挖掘笔记2(EDA)

一、学习知识点概括

EDA探索数据的过程是建模之前必不可少的,通过eda更好的了解数据的分布,数据的关系等等。

二、学习内容

1.数据总览:head(),info()查看类型和缺失信息,describe()查看统计信息
2.了解数据缺失情况,异常值检测
3.总体分布情况(无界约翰逊分布),查看skewness and kurtosis,查看预测值的具体频数
4.特征分为数据特征和类别特征:
数字特征:
相关性分析
查看几个特征得 偏度和峰值
每个数字特征得分布可视化
数字特征相互之间的关系可视化
多变量互相回归关系可视化
分类特征:
unique分布
类别特征箱形图可视化
类别特征的小提琴图可视化
类别特征的柱形图可视化类别
特征的每个类别频数可视化(count_plot)

三、学习问题与解答

sns.Facetplot(),透视图
sns.pairplot(),两两关系图有助于便捷分析数据的特征。

四、学习思考与总结

EDA是一个繁琐但是却很重要的步骤,好的eda会为之后的建模打下基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值