数据探索(一)之数据质量分析

最新推荐文章于 2024-07-14 21:55:07 发布

原创

最新推荐文章于 2024-07-14 21:55:07 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

本文探讨了数据质量分析的关键方面，包括缺失值分析、异常值分析和一致性分析。缺失值可能导致数据不确定性增加，异常值可能表示录入错误或不合理数据。通过简单统计量、3σ原则和箱型图可以识别异常值，箱型图具有良好的鲁棒性。一致性分析关注数据的矛盾和不相容性，尤其在数据集成时可能出现的问题。

数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据一般是指不符合要求以及不能直接就行应用分析的数据。脏数据包括：缺失值、异常值、不一致的值、重复数据以及含有特殊符号(#、￥、*)的数据。

1.缺失值分析

缺失值是指某个记录的缺失或者记录中的某个字段信息的缺失，如某小区居住人员信息统计数据中的某些居民数据的缺失或者某位居民数据中年龄或性别的缺失。
缺失值产生的原因主要有三点：1.有些信息暂时获取不到。2.有些信息由于人为的原因遗漏或者设备故障而丢失。3.属性值不存在，在某些情况下，缺失值并不意味着数据有错误。对一些对象来说，某些属性值是不存在的，如一个未婚者的配偶说明，一个儿童的固定收入。
缺失值将会是数据挖掘建模所表现出的不确定性更加显著，规律更加难以把握。

2.异常值分析

异常值分析是检测数据是否有录入错误，是否含有不合理的数据。异常值是指样本中的个别值，其数据明显偏离其他的观测值。异常值也成为离群点，异常值分析也成为离群点分析。

1.简单统计量分析

可以先对变量做一个描述性统计，进而查看哪些数据是不合理的。即用描述数据统计特征的一些指标如：平均值(mean)、标准差(std)、最小值(min)、最大值(max)、1/4、1/2、3/4分位数。最常用的统计量是最大值和最小值，用来判断这个变量的取值是否超出了合理范围，如客户年龄的最大值为199岁，则判断该变量的取值异常。

2.3σ原则

在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴
三σ原则即为
　　数值分布在（μ—σ,μ+σ)中的概率为0.6826
　　数值分布在（μ—2σ,μ+2σ)中的概率为0.9544
　　数值分布在（μ—3σ,μ+3σ)中的概率为0.9974
　　可以认为，Y 的取值几乎全部集中在（μ—3σ,μ+3σ)]区间内，超出这个范围的可能性仅占不到0.3%.

如果数据服从正态分布，在3σ原则下，异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。因为距离平均值3σ之外的值出现盖伦