不抛弃异常值的几种情况

异常数据是数据分布的常态,处于特定分布区域或范围之外的数据
通常会被定义为异常或“噪音”。产生数据“噪音”的原因很多,例如业务
运营操作、数据采集问题、数据同步问题等。对异常数据进行处理前,
需要先辨别出到底哪些是真正的数据异常。

从数据异常的状态看分为两
种:
·一种是“伪异常”,这些异常是由于业务特定运营动作产生,其实
是正常反映业务状态,而不是数据本身的异常规律。
·一种是“真异常”,这些异常并不是由于特定的业务动作引起的,
而是客观地反映了数据本身分布异常的个案。


大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中
被认为是噪音而剔除,以避免其对总体数据评估和分析挖掘的影响。但
在以下几种情况下,无须对异常值做抛弃处理。
1.异常值正常反映了业务运营结果
该场景是由业务部门的特定动作导致的数据分布异常,如果抛弃异
常值将导致无法正确反馈业务结果。
例如:公司的A商品正常情况下日销量为1000台左右。由于昨日举
行优惠促销活动导致总销量达到10000台,由于后端库存备货不足导致
今日销量又下降到100台。在这种情况下,10000台和100台都正确反映
了业务运营的结果,而非数据异常。
2.异常检测模型
异常检测模型是针对整体样本中的异常数据进行分析和挖掘以便找
到其中的异常个案和规律,这种数据应用围绕异常值展开,因此异常值
不能做抛弃处理。
异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、
药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。在这
种情况下,异常数据本身是目标数据,如果被处理掉将损失关键信息。
3.包容异常值的数据建模
如果数据算法和模型对异常值不敏感,那么即使不处理异常值也不
会对模型本身造成负面影响。例如在决策树中,异常值本身就可以作为
一种分裂节点。


除了抛弃和保留,还有一种思路可对异常值进行处理,例如
使用其他统计量、预测量进行替换,但不推荐使用这种方法,原因是这
会将其中的关键分布特征消除,从而改变原始数据集的分布规律。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值