异常检测(一)之基本概念
1.什么是异常检测
即识别与正常数据不同的数据,与预期行为差异大的数据。

这张图里O1 O2 O3就是离群点。

这张图红点处为偏离的异常点,数据突然上升或者下降。
-
异常值的特点:
异常值不一定是坏的,我们对其成因感兴趣;
异常值往往是在无监督的情况下完成,没有标签。 -
异常检测应用:
金融行业反诈骗;罕见病的检测;机器故障检测;网络流量入侵;图结构群体检测 -
面对的挑战
无监督
运算开销大
在实际应用中解释性较差
检测的历史规则融合 -
使用的工具
Pyod:算法较多
sk-learn:4种算法 -
异常检测的常用方法
统计学: -
参数——假定参数
一元数据:正态分布,3西格玛法则
多元数据:把多元转换成一元,当多元数据维度特征相互独立,求出每一维度的均值和标准差
μj=1m∑i=1mxj(i)\mu_j=\frac 1m\sum_{i=1}^m x_j^{(i)}μj=m1∑i=1mxj(i)
σj2=1m∑i=1m(xj(i)−μj)2\sigma_j^2=\frac 1m\sum_{i=1}^m (x_j^{(i)}-\mu_j)^2σj2=m1∑i=1m(x
异常检测方法详解:从统计学到非参数分析

本文介绍了异常检测的基本概念,包括异常值的特点和应用领域,以及面对的挑战。文中列举了多种异常检测方法,如统计学中的参数和非参数方法,如3西格玛法则、直方图、线性回归、主成成分分析;非参数方法中的孤立森林等。此外,还提到了基于距离和密度的度量方法,并强调了Feature Bagging和孤立森林在处理高维数据异常中的作用。
最低0.47元/天 解锁文章
3130

被折叠的 条评论
为什么被折叠?



