孤立点检测的几种方法

孤立点检测又称为异常检测,离群值检测等
什么是孤立点?孤立点是一个观测值,它与其它观测值的差别如此之大,以至于怀疑它是由不同的机制产生的
孤立点的一些场景
1 网站日志中的孤立点,试图入侵者
2 一群学生中的孤立点,天才 or 白痴?
3 天气数据,灾害,极端天气
4 信用卡行为,试图欺诈者
5 低概率事件,接种疫苗后却发病的

6 实验误差或仪器和操作问题造成的错误数据

检测一元正态分布中的离群点:


当c为3时,概率为0.0027,比较小,我们可以设c=3为阈值,当c>3时,即可认为是离群点。

多元正态分布的离群值:

判断点到分布中心的距离,用马氏距离


基于邻近度的孤立点检测:
选取合适的正整数k
计算每个点和前k个最近邻的平均距离,得到孤立度指标
如果孤立度超过预定阈值,则找到孤立点

基于聚类的孤立点检测:
首先聚类所有的点
对某个待测点评估它属于某一簇的程度。方法是设定一目标函数(例如kmeans法时的簇的误差平方和),如果删去此点能显著地改善此项目标函数,则可以将该点定位为孤立点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值