基于统计学习的方法做异常检测

最新推荐文章于 2024-10-24 21:50:42 发布

蒽，开心(∩_∩)

最新推荐文章于 2024-10-24 21:50:42 发布

阅读量566

点赞数

文章标签：数据分析

原文链接：https://blog.youkuaiyun.com/mario12315/article/details/112690088?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162087533716780262528900%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=162087533716780262528900&biz_id

版权

1.基础理论
假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。

2.参数方法
参数方法假定正常的数据对象被一个以Θ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产生的概率。该值越小，x越可能是异常点。
2.1基于正态分布的一元异常点检测
得到数据后，假设数据服从正态分布，x⁽ⁱ⁾∼N(μ,σ²) 计算出正态分布的各个参数值：

${\mu= \frac{\sum_{i=1}^mx^{(i)}}{m}}$
${\sigma^2 = \frac{\sum_{i=1}^m(x^{(i)}-\mu)^2}{m}}$
求出参数即可得到正态分布的概率密度函数：
$\frac1{\sqrt{2\pi}\sigma}exp(-\frac{(x^{(i)}-\mu)^2}{2\sigma^2})}$
如果计算出来的概率低于阈值，就可以认为该数据点为异常点。
2.1.1阈值设置方法
3sigma原则：阈值为 $(\mu-3\sigma,\mu+3\sigma)$ ，超过范围则为异常点
箱线图可视化：利用数据集的上下四分位数（Q3和Q1）、中点等形成。异常点常被定义为小于Q1－1.5(Q3-Q1)或大于Q3+1.5(Q3-Q1)的那些数据。
简单的箱线图：

2.2多元异常点检测
核心思想是把多元异常点检测转化为一元异常检测，降维问题，例如正态分布，可以先求出每一维度的均值和标准差，对于第 $j$ 维：
$\mu_j=\frac 1m\sum_{i=1}^m x_j^{(i)}$

$\sigma_j^2=\frac 1m\sum_{i=1}^m (x_j^{(i)}-\mu_j)^2$

各个参数相互独立的情况下，计算概率时的概率密度函数为所有维度的乘积：

$p(x)=\prod_{j=1}^n p(x_j;\mu_j,\sigma_j^2)=\prod_{j=1}^n\frac 1{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2})$

多个特征相关，且符合多元高斯分布：
$\mu=\frac{1}{m}\sum^m_{i=1}x^{(i)}$

$\sum=\frac{1}{m}\sum^m_{i=1}(x^{(i)}-\mu)(x^{(i)}-\mu)^T$

$p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)$

3.非参数法
通常，非参数方法对数据做较少假定，因而在更多情况下都可以使用。
4.HBOS法
简单来说就是降维，先求每个维度的概率，再合并，降到一维，最终目的是求样本的概率密度*
1.为每个数据维度做出数据直方图。对分类数据统计每个值的频数并计算相对频率。对数值数据根据分布的不同采用以下两种方法：

静态宽度直方图：标准的直方图构建方法，在值范围内使用k个等宽箱。样本落入每个桶的频率（相对数量）作为密度（箱子高度）的估计。时间复杂度： $O (n)$

2.动态宽度直方图：首先对所有值进行排序，然后固定数量的 $\frac{N}{k}$ 个连续值装进一个箱里，其中N是总实例数，k是箱个数；直方图中的箱面积表示实例数。因为箱的宽度是由箱中第一个值和最后一个值决定的，所有箱的面积都一样，因此每一个箱的高度都是可计算的。这意味着跨度大的箱的高度低，即密度小，只有一种情况例外，超过k个数相等，此时允许在同一个箱里超过 $\frac{N}{k}$ 值。

时间复杂度： $O(n\times log(n))$

2.对每个维度都计算了一个独立的直方图，其中每个箱子的高度表示密度的估计。然后为了使得最大高度为1（确保了每个特征与异常值得分的权重相等），对直方图进行归一化处理。最后，每一个实例的HBOS值由以下公式计算：

$S(p)=-\log (P(p))=\sum_{i=1}^{d} \frac{1}{\log \left(P_{i}(p)\right)}$

推导过程：

假设样本p第 i 个特征的概率密度为 $p_i(p)$ ，则p的概率密度可以计算为： $P(p)=P_{1}(p) P_{2}(p) \cdots P_{d}(p)$ 两边取对数： $\begin{aligned} \log (P(p)) &=\log \left(P_{1}(p) P_{2}(p) \cdots P_{d}(p)\right) =\sum_{i=1}^{d} \log \left(P_{i}(p)\right) \end{aligned}$ 概率密度越大，异常评分越小，为了方便评分，两边乘以“-1”： $-\log (P(p))=-1 \sum_{i=1}^{d} \log \left(P_{t}(p)\right)=\sum_{i=1}^{d} \frac{1}{\log \left(P_{i}(p)\right)}$ 最后可得： $S(p)=-\log (P(p))=\sum_{i=1}^{d} \frac{1}{\log \left(P_{i}(p)\right)}$

案例尝试：
在这里插入图片描述