异常值是指那些在数据集中存在的不合理的值,需要注意的是,不合理的值是偏离正常范围的值,不是错误值。比如人的身高为-1m,人的体重为1吨等,都属于异常值的范围。虽然异常值不常出现,但是又会对实际项目分析有影响,造成结果的偏差,所以在数据挖掘的过程中不能不重视。
异常值出现的原因
数据集中的异常值可能是由于传感器故障、人工录入错误或异常事件导致。如果忽视这些异常值,在某些建模场景下就会导致结论的错误(如线性回归模型、K均值聚类等),所以在数据的探索过程中,有必要识别出这些异常值并处理好它们。
异常值检测
简单统计分析
最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出合理的范围。
3σ原则
3σ原则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满足正态分布。
正态分布,又叫做高斯分布。特征为中间高两边低左右对称。
正态分布特性:
- 集中性:曲线的最高峰位于正中央,并且位置为均数所在的位置。
- 对称性:以均数所在的位置为中心呈左右对称,并且曲线两段无限趋近于横轴。
- 均匀变动性:正态分布曲线以均数所在的位置为中心均匀向左右两侧下降。
正态分布函数公式如下: