12.离群点检测
离群点检测或异常检测,是找出其行为很不同于预期对象的过程。这种对象称为离群点或异常。离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据,而离群点检测则试图捕获显著偏离多数模式的异常情况。
12.1 离群点和离群点分析
离群点显著不同于其他对象。离群点类型包括全局离群点、情境离群点、集体离群点。离群点检测的挑战来自:正常对象和离群点的有效建模、针对应用的离群点检测、在离群点检测中处理噪声、可理解性。
12.2 离群点检测方法
如果得到专家标记的正常和离群点对象实例,可以建立离群点检测模型,包括监督方法、无监督方法、半监督方法。
离群点检测方法对离群点与其他数据做出假定,根据所做的假定,可以把离群点检测方法分为三类:统计学方法、基于邻近性的方法和基于聚类的方法。
12.3 统计学方法
离群点检测的统计学方法假定数据集中的正常对象由一个随机过程(生成模型)产生,因此,正常对象出现在该随机模型的高概率区域中,而低概率区域中的对象是离群点。
离群点检测的统计学方法一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为离群点。根据如何指定和如何学习模型,离群点检测的统计学方法可划分为两个主要类型:参数方法和非参数方法。
参数方法假定正常的对象呗一个以Θ为参数的参数分布产生,该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产生的概率,该值越小,x越可能是离群点。
非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。
参数方法包括:基于正态分布的一元离群点检测、多元离群点检测(马哈拉诺比斯距离)、使用混合参数分布。
非参数方法包括:直方图。
12.4 基于邻近性的方法
基于邻近性的方法假定:离群点对象与它最近邻的邻近性