第三章 数据探索
目录
一、数据探索
- 数据集的质量和数量
- 没有设想过的数据状态
- 规律和趋势
- 各因素的关联性
二、数据质量分析
数据预处理的前提
1. 主要任务
检查原始数据中是否存在脏数据
脏数据:不符合要求,以及不能直接进行相应分析的数据
包括:缺失值、异常值、不一致的值(一致性、重复数据及含有特殊符号(如#、¥、*)的数据
2. 缺失值分析
包含:记录的缺失、字段的缺失
原因:无法获取、成本高、遗漏
影响:有用信息丢失、不确定性↑、建模混乱
分析:含缺失值的属性的个数、每个属性的未缺失数、缺失数、缺失率
处理:删除、插补、不处理
3. 异常值分析
录入错误、不合常理的数据、数值明显偏离其余的观测值
异常值也称离群点、异常值分析也称为离群点分析
- 1) 简单统计量分析
最大值、最小值 看是否超过
- 2) 3δ原则
如果是正态分布,看是否距离平均值3δ之外
如果不是正态分布,可以看远离平均值多少倍来衡量
- 3)箱型图分析
4. 一致性分析
数据的矛盾性、不相容性
来源:不同数据源、重复存放的数据未能进行一致性更新造成的