1、定义数据挖掘目标
任务理解
指标确定
2、数据取样
- 建模抽样(大数据是用过滤后的全量数据)
抽样之前需要衡量数据质量衡量的标准主要有以下几点:
资料完整无缺,各类指标齐全
数据准确无误,反映的都是正常状态下的数据
数据抽样的方式:
随机抽样
等距抽样
分层抽样
从起始位置开始抽样
分类抽样
- 实时采集
3、数据探索
- 数据质量分析
1.数据质量分析是数据挖掘分析结论有效性的基础
2.缺失值分析
3.异常值分析
是用来检测数据是否有录入错误以及含有不和常理的数据
方式:
简单统计量分析
3西格玛原则
箱型图分析
箱型图识别异常值的一个标准是:异常值通常是被定义为小于Ql-1.5IQR或大于Qu+1.5IQR的值。Ql下四分位数,Qu上四分位数,IQR称为四分位间距。
4.一致性分析
- 数据特征分析
就是通过绘制图表,计算某些特征量等方式
1.分布分析