孤立点检测又称为异常检测,离群值检测等
什么是孤立点?孤立点是一个观测值,它与其它观测值的差别如此之大,以至于怀疑它是由不同的机制产生的
孤立点的一些场景
1 网站日志中的孤立点,试图入侵者
2 一群学生中的孤立点,天才 or 白痴?
3 天气数据,灾害,极端天气
4 信用卡行为,试图欺诈者
5 低概率事件,接种疫苗后却发病的
什么是孤立点?孤立点是一个观测值,它与其它观测值的差别如此之大,以至于怀疑它是由不同的机制产生的
孤立点的一些场景
1 网站日志中的孤立点,试图入侵者
2 一群学生中的孤立点,天才 or 白痴?
3 天气数据,灾害,极端天气
4 信用卡行为,试图欺诈者
5 低概率事件,接种疫苗后却发病的
6 实验误差或仪器和操作问题造成的错误数据
检测一元正态分布中的离群点:
当c为3时,概率为0.0027,比较小,我们可以设c=3为阈值,当c>3时,即可认为是离群点。
多元正态分布的离群值:
判断点到分布中心的距离,用马氏距离
基于邻近度的孤立点检测:
选取合适的正整数k
计算每个点和前k个最近邻的平均距离,得到孤立度指标
如果孤立度超过预定阈值,则找到孤立点
基于聚类的孤立点检测:
首先聚类所有的点
对某个待测点评估它属于某一簇的程度。方法是设定一目标函数(例如kmeans法时的簇的误差平方和),如果删去此点能显著地改善此项目标函数,则可以将该点定位为孤立点