【数据挖掘笔记十二】离群点检测

 

12.离群点检测

离群点检测或异常检测,是找出其行为很不同于预期对象的过程。这种对象称为离群点或异常。离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据,而离群点检测则试图捕获显著偏离多数模式的异常情况。

12.1 离群点和离群点分析

离群点显著不同于其他对象。离群点类型包括全局离群点、情境离群点、集体离群点。离群点检测的挑战来自:正常对象和离群点的有效建模、针对应用的离群点检测、在离群点检测中处理噪声、可理解性。

12.2 离群点检测方法

如果得到专家标记的正常和离群点对象实例,可以建立离群点检测模型,包括监督方法、无监督方法、半监督方法。

离群点检测方法对离群点与其他数据做出假定,根据所做的假定,可以把离群点检测方法分为三类:统计学方法、基于邻近性的方法和基于聚类的方法。

12.3 统计学方法

离群点检测的统计学方法假定数据集中的正常对象由一个随机过程(生成模型)产生,因此,正常对象出现在该随机模型的高概率区域中,而低概率区域中的对象是离群点。

离群点检测的统计学方法一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为离群点。根据如何指定和如何学习模型,离群点检测的统计学方法可划分为两个主要类型:参数方法和非参数方法。

参数方法假定正常的对象呗一个以Θ为参数的参数分布产生,该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产生的概率,该值越小,x越可能是离群点。

非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。

参数方法包括:基于正态分布的一元离群点检测、多元离群点检测(马哈拉诺比斯距离)、使用混合参数分布。

非参数方法包括:直方图。

12.4 基于邻近性的方法

基于邻近性的方法假定:离群点对象与它最近邻的邻近性

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值