一、学习知识点概括
EDA探索数据的过程是建模之前必不可少的,通过eda更好的了解数据的分布,数据的关系等等。
二、学习内容
1.数据总览:head(),info()查看类型和缺失信息,describe()查看统计信息
2.了解数据缺失情况,异常值检测
3.总体分布情况(无界约翰逊分布),查看skewness and kurtosis,查看预测值的具体频数
4.特征分为数据特征和类别特征:
数字特征:
相关性分析
查看几个特征得 偏度和峰值
每个数字特征得分布可视化
数字特征相互之间的关系可视化
多变量互相回归关系可视化
分类特征:
unique分布
类别特征箱形图可视化
类别特征的小提琴图可视化
类别特征的柱形图可视化类别
特征的每个类别频数可视化(count_plot)
三、学习问题与解答
sns.Facetplot(),透视图
sns.pairplot(),两两关系图有助于便捷分析数据的特征。
四、学习思考与总结
EDA是一个繁琐但是却很重要的步骤,好的eda会为之后的建模打下基础。