离群点检测是找出其行为不同于预期对象的过程
离群点检测与聚类分析是两项高度相关的任务:聚类是发现数据集中的多数模式并据此组织数据,而离群点检测则试图找出那些显著偏离多数模式的异常情况。
离群点不同于噪声,噪声是被观测变量的随机误差或者方差。在离群点检测之前就应该删除噪声。
离群点种类:全局离群点、情境离群点、集体离群点
离群点检测方法:
1)如果可以得到专家标记的正常和离群点对象实例,则可以使用它们建立离群点检测模型。所使用的方法有监督方法、半监督方法、无监督方法
2)离群点检测方法对离群点与其余数据做出假定。根据所做的假定,可以把离群点检测方法分为三类:统计学方法、基于邻近性的方法和基于聚类的方法
3)统计学方法(主要分为参数方法和非参数方法) 思想:学习一个给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为离群点