一、EDA(探索性数据分析)
1、定义:在统计学中,探索性数据分析(EDA)是一种分析数据集以概括其主要特征的方法,通常使用可视化方法。可以使用或使用统计模型,但主要是EDA是为了了解数据在形式化建模或假设测试任务之外能告诉我们什么。EDA不同于初始数据分析(IDA),它更集中于检查模型拟合和假设检验所需的假设,以及处理缺少的值,并根据需要进行变量转换。
2、目的:熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
二、主要步骤
2、载入数据
3、总览数据概况
4、判断数据缺失和异常
5、了解预测值的分布
6、特征分为类别特征和数字特征,并对类别特征查看unique分布
7、数字特征分析
8、类别特征分析
9、生成数据报告
11-10
7267
7267
11-23

被折叠的 条评论
为什么被折叠?



