孤立点检测的几种方法

最新推荐文章于 2024-11-12 10:21:43 发布

原创最新推荐文章于 2024-11-12 10:21:43 发布 · 7.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#孤立点检测

R 专栏收录该内容

17 篇文章

订阅专栏

孤立点检测又称为异常检测，离群值检测等
什么是孤立点？孤立点是一个观测值，它与其它观测值的差别如此之大，以至于怀疑它是由不同的机制产生的
孤立点的一些场景
1 网站日志中的孤立点，试图入侵者
2 一群学生中的孤立点，天才 or 白痴？
3 天气数据，灾害，极端天气
4 信用卡行为，试图欺诈者
5 低概率事件，接种疫苗后却发病的

6 实验误差或仪器和操作问题造成的错误数据

检测一元正态分布中的离群点：

当c为3时，概率为0.0027，比较小，我们可以设c=3为阈值，当c>3时，即可认为是离群点。

多元正态分布的离群值：

判断点到分布中心的距离，用马氏距离

基于邻近度的孤立点检测：
选取合适的正整数k
计算每个点和前k个最近邻的平均距离，得到孤立度指标
如果孤立度超过预定阈值，则找到孤立点

基于聚类的孤立点检测：
首先聚类所有的点
对某个待测点评估它属于某一簇的程度。方法是设定一目标函数（例如kmeans法时的簇的误差平方和），如果删去此点能显著地改善此项目标函数，则可以将该点定位为孤立点

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。