数据挖掘的建模流程

1、定义数据挖掘目标

       任务理解

       指标确定

2、数据取样

  • 建模抽样(大数据是用过滤后的全量数据)

抽样之前需要衡量数据质量衡量的标准主要有以下几点:

资料完整无缺,各类指标齐全

数据准确无误,反映的都是正常状态下的数据

数据抽样的方式:

随机抽样

等距抽样

分层抽样

从起始位置开始抽样

分类抽样

  • 实时采集

3、数据探索

  • 数据质量分析

1.数据质量分析是数据挖掘分析结论有效性的基础

2.缺失值分析

3.异常值分析

    是用来检测数据是否有录入错误以及含有不和常理的数据

    方式:

         简单统计量分析

        3西格玛原则

        箱型图分析

            箱型图识别异常值的一个标准是:异常值通常是被定义为小于Ql-1.5IQR或大于Qu+1.5IQR的值。Ql下四分位数,Qu上四分位数,IQR称为四分位间距。

4.一致性分析

  •  数据特征分析

就是通过绘制图表,计算某些特征量等方式

1.分布分析

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值