15 异常检测

最新推荐文章于 2025-01-13 09:25:27 发布

原创最新推荐文章于 2025-01-13 09:25:27 发布 · 368 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

本文深入探讨了异常检测技术，包括高斯分布的应用、算法实现、特征选择与调整等关键环节，并对比了异常检测与监督学习的区别，介绍了如何利用多元高斯分布改进异常检测的准确性。

15 异常检测

15 异常检测

15.1 问题的动机

根据已有数据集建立概率模型p(x):

x = {异 常 样 本 正 常 样 本 if p(x) < ϵ otherwise

$x = \begin{cases} 异常样本 & \text{if p(x) <} \epsilon \\ 正常样本 & \text{otherwise}\\ \end{cases}$

15.2 高斯分布

p (x; μ, σ 2) = 1 2 π ‾ ‾ ‾ \sqrt σ e x p (- ( x - μ ) 2 2 σ 2)

$p(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x - \mu)^2}{2\sigma^2})$
叫做

x∼N(μ,σ2) x ∼ N ( μ , σ 2 ) $x \sim N(\mu, \sigma^2)$
其中，

μ = 1 m \sum i = 1 m x (i)

$\mu=\frac{1}{m}\sum_{i=1}^mx^{(i)}$
总体的方差（

σ σ $\sigma$ 是标准差）：

σ 2 = 1 m \sum i = 1 m (x (i) - μ) 2

$\sigma^2 =\frac{1}{m}\sum_{i=1}^m(x^{(i)} - \mu)^2$
样本的方差：

σ 2 = 1 m - 1 \sum i = 1 m (x (i) - μ) 2

$\sigma^2 =\frac{1}{m-1}\sum_{i=1}^m(x^{(i)} - \mu)^2$
但其实样本的标准差无所谓减不减一，统计量小的时候无意义，统计量大的时候有更能引起误差的地方。

15.3 算法

选择可以表示异常样本的特征 $x_j$
计算特征 $\mu_1, \mu_2,...,\mu_n,\sigma_1^2,\sigma_2^2,...,\sigma_n^2$ :
$μ j = 1 m \sum i = 1 m (x (i) j)$ $\mu_j=\frac{1}{m}\sum_{i=1}^m(x_j^{(i)})$
$σ 2 j = 1 m \sum i = 1 m (x (i) j - μ j) 2$ $\sigma_j^2 = \frac{1}{m}\sum_{i=1}^m(x^{(i)}_j-\mu_j)^2$
对于给出的样本 $x$ ,计算 $p(x)$ :
$p (x) = \prod j = 1 n p (x j; μ j, σ 2 j) = \prod j = 1 n 1 2 π ‾ ‾ ‾ \sqrt σ j e x p (- ( x j - μ j ) 2 2 σ 2 j)$ $p(x) = \prod_{j=1}^np(x_j;\mu_j,\sigma_j^2)=\prod_{j=1}^n\frac{1}{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j - \mu_j)^2}{2\sigma_j^2})$
如果 $p(x)<\epsilon,$ $x$ 为异常点

15.4 开发和评估

现在有一些带标签的数据，有正常数据和异常数据
规定 $y=0 \ if \ normal$ , $y=1\ if\ anomalous$
训练集： $x^{(1)}, x^{(2)},...,x^{(m)}$ ，即使存在少量异常数据也无所谓。
交叉验证集： $(x_{cv}^{(1)},y_{cv}^{(1)}),...,(x_{cv}^{(m_{cv})},y_{cv}^{(m_{cv})})$
测试集： $(x^{(1)}_{test},y^{(1)}_{test}),...,(x^{(m_{test})}_{test},y^{(m_{test})}_{test})$
比如：
10000个正常引擎
20个异常引擎
训练集：6000个正常的引擎
CV：2000个正常引擎，10个异常引擎
Test: 2000个正常引擎，10个异常引擎

$\$	预测正例	预测反例
现实正例	TP	FN
现实反例	FP	TN

精确率： $precision = \frac{TP}{TP + FP}$ 预测出的正例中真的为正例的比例
召回率: $recall = \frac{TP}{TP + FN}$ ,现实所有正例中预测出的正例比例
$F_1 = \frac{2PR}{P+R}$

评价：
- 根据训练集数据，计算 $\mu$ 和 $\sigma^2$ ，构建 $p(x)$
- 根据交叉验证集，用 $F_1$ 、精确率与召回率的比例，尝试不同 $\epsilon$
- 根据 $\epsilon$ , 针对测试集预测，计算 $F_1$ 、精确率与召回率的比例

15.5 异常检测与监督学习对比

正向样本在异常检测中即为异常点

异常检测	监督学习
非常少的正向样本，数据集很偏斜	大量的正向样本和负向样本
有很多不同类的异常样本，很难从正向样本中学到异常的样子，未来出现的异常可能和现有异常都不同	充足的正向样本，可以通过算法得到正向样本的形态，未来的正向样本和训练集的正向样本很像

异常检测	监督学习
欺诈行为检测	垃圾邮件分类
生产飞机引擎	天气预报
检测数据中心的机器	肿瘤分类

15.6 选择特征

调整特征使其服从高斯分布

画出数据或者数据特征的直方图

如果这是 $x$ 的特征 $x_1$ 的分布图，那么让 $x_1 = log(x_1)$ 。
或者 $x_1 = log(x_1 + C)$
或者 $x_1 = x_1^{\frac{1}{2}}$ ，这个指数可以调整。
调整特征使其看起来像高斯分布。

异常检测算法的误差分析

常见问题：
$p(x)$ 将异常数据预测为正常数据，因为其具有高的 $p(x)$ 值。
这时，去分析预测错误的数据，尝试找到原因，可能会发现需要增加新特征。
结合新特征后，异常数据将不再具有高 $p(x)$ 值。
x2是新的特征
x2是新特征。

组合特征产生新特征

我们选择的特征不能特别大，也不能特别小。
反过来说，我们需要在异常时候能过特别大或者特别小的值作为特征。
在计算机中心，选择四个特征：
- $x_1$ = 内存
- $x_2$ = 磁盘访问数/秒
- $x_3$ = CPU负载
- $x_4$ = 网络通信量
现在有一个新的类型的异常，CPU的负载高，网络通信量低，即，一个特征大，一个特征小，为了突出这种异常，组合上面的异常：
$x_5 =$ $CPU负载 \over 网络通信量$
那么，如果这种异常发生，特征会极其大。
即，可以通过组合现有特征，产生更明显的特征。

15.7 多元高斯分布

希望能改变高斯分布的边界，从红色线变到蓝色线，这样，像绿色的异常点就不会被误预测为正常点。

定义

$x \in R^n$
模型 $p(x)$ 不是 $p(x_1)、p(x_2)...$ 的乘积。
参数：
$\mu \in R^n$ ，协方差矩阵 $\ \Sigma \in R^{n * n}$

p (x; μ, Σ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 e x p (- 1 2 (x - μ) T Σ - 1 (x - μ))

$p(x;\mu,\Sigma) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x-\mu))$

直观理解

$\Sigma$ 大小变化对正态分布带来的影响

对角线：数值越大，越低，占地面积越大

对角线：数值之间差距越大，越椭圆

反对角线：x1与x2正相关，数值越大，越窄越高；

反对角线：x1与x2负相关，数值越大，越窄越高；

$\mu$ 大小变化对正态分布的影响

影响中心的位置

15.8 多元高斯分布做异常检测

1. 根据训练集计算 $\mu$ 、 $\Sigma$ ，得到模型 $p(x)$
2. 对一个给定的新样本 $x$ ，计算 $p(x)$ ，如果 $p(x) < \epsilon$ ，则为异常样本

与原始模型的关系

原始模型是多元高斯分布关于轴对称的特例。也就是其轴与坐标轴平行。
即，原始模型是多元高斯分布的参数 $\Sigma$ 为对角阵的情况（除对角线外，其他元素为零）

原高斯模型	多元高斯模型
当特征之间有相关性的时候，手动创建特征去捕捉异常	自动捕获特征之间的相关性
计算代价小	计算代价大
训练集小也可以检测	必须 m > n，否则 $\Sigma$ 不可逆;一般 m > 10n; 如果特征冗余， $\Sigma$ 也不可逆