异常检测入门:概念、类别与应用场景
1. 异常的定义
在深入了解异常检测之前,我们需要明确什么是异常。一般来说,异常是指偏离预期的结果或值,但判定异常的具体标准会因情况而异。
1.1 异常天鹅的例子
想象在一个湖边,我们最初看到的天鹅都是白色的。基于这些观察,我们会认为接下来看到的天鹅也会是白色。然而,当一只黑天鹅出现时,它完全违背了我们的预期,成为了一个异常。
我们可以用两种方法来解释为什么将黑天鹅视为异常:
- 归纳推理法 :由于在这个特定湖边观察到的绝大多数天鹅都是白色的,我们通过类似归纳推理的过程,认为这里天鹅的正常颜色是白色。因此,仅基于之前只见过白天鹅的假设,我们会将黑天鹅标记为异常。
- 概率法 :假设这个湖边总共有1000只天鹅,其中只有2只是黑天鹅,那么一只天鹅是黑色的概率就是2 / 1000,即0.002。根据概率阈值(即被视为正常的结果或事件的最低概率),黑天鹅可能会被标记为异常或正常。在我们的例子中,由于其在这个湖边极其罕见,我们将其视为异常。
1.2 数据点形式的异常
我们可以将这个概念扩展到实际应用中。以一个生产螺丝的工厂为例,为了确保产品质量,工厂会从每批产品中抽取单个螺丝进行检测,并测量每个抽样螺丝的密度和抗拉强度(即螺丝在应力下抵抗断裂的能力)。
根据这些测量数据,我们可以将数据点分为“合格”或“异常”。当一个新的螺丝样本数据点落在可接受范围之外时,例如其密度对应的抗拉
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



