异常检测(一)之基本概念
1.什么是异常检测
即识别与正常数据不同的数据,与预期行为差异大的数据。
这张图里O1 O2 O3就是离群点。
这张图红点处为偏离的异常点,数据突然上升或者下降。
-
异常值的特点:
异常值不一定是坏的,我们对其成因感兴趣;
异常值往往是在无监督的情况下完成,没有标签。 -
异常检测应用:
金融行业反诈骗;罕见病的检测;机器故障检测;网络流量入侵;图结构群体检测 -
面对的挑战
无监督
运算开销大
在实际应用中解释性较差
检测的历史规则融合 -
使用的工具
Pyod:算法较多
sk-learn:4种算法 -
异常检测的常用方法
统计学: -
参数——假定参数
一元数据:正态分布,3西格玛法则
多元数据:把多元转换成一元,当多元数据维度特征相互独立,求出每一维度的均值和标准差
μ j = 1 m ∑ i = 1 m x j ( i ) \mu_j=\frac 1m\sum_{i=1}^m x_j^{(i)} μj=m1∑i=1mxj(i)
σ j 2 = 1 m ∑ i = 1 m ( x j ( i ) − μ j ) 2 \sigma_j^2=\frac 1m\sum_{i=1}^m (x_j^{(i)}-\mu_j)^2 σj2=m1∑i=1m(