吴恩达机器学习15-异常检测_异常检测吴恩达-优快云博客

本文介绍了异常检测的基本概念，通过吴恩达机器学习课程讲解了使用高斯分布进行异常检测的原理，包括计算平均值和方差、构建概率密度函数以及设置阈值判断异常。此外，还探讨了多元高斯分布在处理相关特征时的优势，以及特征选择和模型评估的重要性。异常检测与监督学习的区别在于异常数据的稀有性，适合于不同类型异常的未知场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

吴恩达机器学习15-异常检测

1.问题引入

判断飞机引擎是否出现异常

收集飞机引擎的一些特征变量，比如引擎运转时产生的热量，或者引擎的振动等等

这里的每个点、每个叉，都是无标签数据。这样，异常检测问题可以定义如下：假设新的飞机引擎的特征变量为𝑥_{𝑡𝑒𝑠t},判断其是否发生异常。

给定数据集 $x(1),x(2),…,x(m)x^{(1)}, x^{(2)}, \ldots, x^{(m)}$ , 我们假使数据集是正常的, 我们希望知道新的数据 $x_{\text {test }}$ 是不是异常的, 即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x) 。

在这里插入图片描述

上图中，在蓝色圈内的数据属于该组数据的可能性较高，而越是偏远的数据，其属于该
组数据的可能性就越低。

进行判别

$i f$
$p(x)\left\{\begin{array}{ll}<\varepsilon & \text { anomaly } \\ >=\varepsilon & \text { normal }\end{array}\right.$

若可能性小于阈值则判断为异常

2.高斯分布

高斯分布, 也称为正态分布，通常如果我们认为变量 $x$ 符合高斯分布 $\sim N\left(\mu, \sigma^{2}\right)$

则其概率密度函数为:

$p(x,μ,σ2)=12πσexp⁡(−(x−μ)22σ2)p\left(x, \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)$

我们可以利用已有的数据来预测总体中的 $μ和σ2\mu 和 \sigma^{2}$ 的计算方法如下:

$μ=1m∑i=1mx(i)\quad \mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)}$

$σ2=1m∑i=1m(x(i)−μ)2\sigma^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)^{2}$

下图是例子：

在这里插入图片描述

$u$ 决定分布位置， $σ\sigma$ 决定分布形状，越小越尖锐

3.利用高斯分布开发异常检测算法

$\text { 对于给定的数据集 } x^{(1)}, x^{(2)}, \ldots, x^{(m)} \text {, 我们要针对每一个特征计算 } \mu \text { 和 } \sigma^{2} \text { 的估计值: }$

$μ=1m∑i=1mx(i)\quad \mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)}$

$σ2=1m∑i=1m(x(i)−μ)2\sigma^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)^{2}$

$一旦我们获得了平均值和方差的估计值，给定新的一个训练实例，根据模型计算 p (x) ：$

$p(x)=∏j=1np(xj;μj,σj2)=∏j=1112πσjexp⁡(−(xj−μj)22σj2)p(x)=\prod_{j=1}^{n} p\left(x_{j} ; \mu_{j}, \sigma_{j}^{2}\right)=\prod_{j=1}^{1} \frac{1}{\sqrt{2 \pi} \sigma_{j}} \exp \left(-\frac{\left(x_{j}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right)$
进行判别：

当𝑝(𝑥) < 𝜀时，为异常。

在这里插入图片描述

上图是一个实际例子，二号样本为异常点

4.开发和评价一个异常检测系统

首先，将数据分为训练集、交叉验证集和测试集

例如：我们有 10000 台正常引擎的数据，有 20 台异常引擎的数据。我们这样分配数据：
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集

具体的开发评价方法为：

根据训练集数据，我们估计特征的平均值和方差并构建𝑝(𝑥)函数
对交叉检验集，我们尝试使用不同的𝜀值作为阀值，并预测数据是否异常，根据 F1 值（可参见11机器学习系统的设计）
或者查准率与查全率的比例来选择 𝜀
选出 𝜀 后，针对测试集进行预测，计算异常检验系统的𝐹1值，或者查准率与查全率
之比。

5.异常检测与监督学习对比

异常检测	监督学习
非常少量的正向类（异常数据y = 1 ）, 大量的负向类（y = 0）	同时有大量的正向类和负向类
许多不同种类的异常，非常难根据非常少量的正向类数据来训练算法。且未来遇到的异常可能与已掌握的异常、非常的不同	有足够多的正向类实例，足够用于训练算法，未来遇到的正向类实例可能与训练集中的非常近似。
例如：欺诈行为检测生产（例如飞机引擎）检测数据中心的计算机运行状况	例如：邮件过滤器天气预报肿瘤分类

两者的核心区别在于异常类型是否尽量可知，当出现了太多没见过的不同的异常类型选择异常检测

6.选择特征

异常检测假设特征符合高斯分布，如果数据的分布不是高斯分布，异常检测算法也能够
工作，但是最好还是将数据转换成高斯分布。

例如：𝑥 = 𝑙𝑜𝑔(𝑥 + 𝑐)，其中 𝑐为非负常数；或者 𝑥 = 𝑥^𝑐，𝑐为 0-1 之间的一个分数，等方法。（在 python 中，通常用 np.log1p()函数，𝑙𝑜𝑔1𝑝就是 𝑙𝑜𝑔(𝑥 + 1)，可以避免出现负数结果，反向函数就是 np.expm1())
一个常见的问题是一些异常的数据可能也会有较高的𝑝(𝑥)值，因而被算法认为是正常的。这时我们需要增加一些新的特征，增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。

通常可以通过将一些相关的特征进行组合，来获得一些新的更好的特征（异常数据的该特征值异常地大或小），例如，在检测数据中心的计算机状况的例子中，我们可以用CPU负载与网络通信量的比例作为一个新的特征，如果该值异常地大，便有可能意味着该服务器是陷入了一些问题中。

7.多元高斯分布

假使我们有两个相关的特征，而且这两个特征的值域范围比较宽，这种情况下，一般的高斯分布模型可能不能很好地识别异常数据。其原因在于，一般的高斯分布模型尝试的是去同时抓住两个特征的偏差，因此创造出一个比较大的判定边界。

下图中是两个相关特征，洋红色的线（根据 ε 的不同其范围可大可小）是一般的高斯分布模型获得的判定边界，很明显绿色的 X 所代表的数据点很可能是异常值，但是其𝑝(𝑥)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界：

在这里插入图片描述

在一般的高斯分布模型中，我们计算 𝑝(𝑥) 的方法是：通过分别计算每个特征对应的几率然后将其累乘起来，在多元高斯分布模型中，我们将构建特征的协方差矩阵，用所有的特征一起来计算 𝑝(𝑥)。

我们首先计算所有特征的平均值，然后再计算协方差矩阵：
$μ=1m∑i=1mx(i)Σ=1m∑i=1m(x(i)−μ)(x(i)−μ)T=1m(X−μ)T(X−μ)\mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)} \\ \Sigma=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)\left(x^{(i)}-\mu\right)^{T}=\frac{1}{m}(X-\mu)^{T}(X-\mu)$

$Σ\Sigma$ 在matlab中用det计算。

注:其中 $μ\mu$ 是一个向量, 其每一个单元都是原特征矩阵中一行数据的均值。最后我们计算多元高斯分布的p(x):

$p(x)=1(2π)n2∣Σ∣12exp⁡(−12(x−μ)TΣ−1(x−μ))p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)$

$Σ\Sigma$ 协方差矩阵对模型的影响：

在这里插入图片描述

上图是 5 个不同的模型，从左往右依次分析：

是一个一般的高斯分布模型
通过协方差矩阵，令特征 1 拥有较小的偏差，同时保持特征 2 的偏差
通过协方差矩阵，令特征 2 拥有较大的偏差，同时保持特征 1 的偏差
通过协方差矩阵，在不改变两个特征的原有偏差的基础上，增加两者之间的正相关性
通过协方差矩阵，在不改变两个特征的原有偏差的基础上，增加两者之间的负相关性

$μ\mu$ 特征的平均值对模型的影响：

在这里插入图片描述

改变模型的分布位置。

8.使用多元高斯分布进行异常检测

1.计算 $μ和Σ\mu和\Sigma$

$μ=1m∑i=1mx(i)Σ=1m∑i=1m(x(i)−μ)(x(i)−μ)T=1m(X−μ)T(X−μ)\mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)} \\ \Sigma=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)\left(x^{(i)}-\mu\right)^{T}=\frac{1}{m}(X-\mu)^{T}(X-\mu)$

2.计算p（x）

$p(x)=1(2π)n2∣Σ∣12exp⁡(−12(x−μ)TΣ−1(x−μ))p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)$

3.设定阈值进行异常判别

$p(x)<ε\text { Flag an anomaly if } p(x)<\varepsilon$

当协方差矩阵符合以下分布时，原高斯分布模型与多元高斯模型的结果是一致的

在这里插入图片描述

原始模型与多元高斯模型对比：

原高斯分布模型	多元高斯分布模型
不能捕捉特征之间的相关性但可以通过将特征进行组合（创建新特征）的方法来解决	自动捕捉特征之间的相关性
计算代价低，能适应大规模的特征	计算代价较高,训练集较小时也同样适用但是必须要有m>n，且特征之间不能存在相关性，不然的话协方差矩阵不可逆的，通常需要m>10n（样本数远大于特征数）另外特征冗余也会导致协方差矩阵不可逆

原高斯分布模型被广泛使用着，如果特征之间在某种程度上存在相互关联的情况，我们可以通过构造新新特征的方法来捕捉这些相关性。
如果训练集不是太大，并且没有太多的特征，我们可以使用多元高斯分布模型。