数据挖掘 第十二章离群点检测

离群点检测是找出其行为不同于预期对象的过程

离群点检测与聚类分析是两项高度相关的任务:聚类是发现数据集中的多数模式并据此组织数据,而离群点检测则试图找出那些显著偏离多数模式的异常情况。


离群点不同于噪声,噪声是被观测变量的随机误差或者方差。在离群点检测之前就应该删除噪声。

离群点种类:全局离群点、情境离群点、集体离群点

离群点检测方法:

1)如果可以得到专家标记的正常和离群点对象实例,则可以使用它们建立离群点检测模型。所使用的方法有监督方法、半监督方法、无监督方法

2)离群点检测方法对离群点与其余数据做出假定。根据所做的假定,可以把离群点检测方法分为三类:统计学方法、基于邻近性的方法和基于聚类的方法

3)统计学方法(主要分为参数方法和非参数方法)  思想:学习一个给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为离群点



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值