异常检测入门:概念、类别与应用场景
1. 异常的定义
在深入了解异常检测之前,我们需要明确什么是异常。一般来说,异常是指偏离预期的结果或值,但判定异常的具体标准会因情况而异。
1.1 异常天鹅的例子
为了更好地理解异常的概念,我们来看一个关于天鹅的例子。假设我们在湖边观察天鹅,多年来看到的天鹅都是白色的,因此我们合理地认为这个湖的天鹅正常颜色应该是白色。然而,有一天一只黑天鹅飞来了,这只黑天鹅完全违背了我们之前的认知,它就是一个异常。
我们可以用两种方式来解释为什么这只黑天鹅是异常:
- 归纳推理 :由于我们观察到这个湖的绝大多数天鹅都是白色的,通过类似归纳推理的过程,我们认为这里天鹅的正常颜色是白色。基于之前只见过白天鹅的假设,我们自然会将这只黑天鹅标记为异常。
- 概率角度 :假设这个湖总共有 1000 只天鹅,其中只有 2 只是黑天鹅,那么一只天鹅是黑色的概率就是 2 / 1000,即 0.002。根据概率阈值(即被认为正常的结果或事件的最低概率),这只黑天鹅因其极低的出现概率,我们会将其视为异常。
1.2 异常作为数据点
我们可以将这个概念扩展到实际应用中。以一个生产螺丝的工厂为例,为了确保产品质量,工厂会从每批螺丝中抽样检测,测量每个抽样螺丝的密度和抗拉强度(螺丝在受力时抵抗断裂的能力)。
如上图所示,虚线表示允许的密度和抗拉强度范围,实线形成一个边界框,框内的任何密度和抗拉强度值都被认为是合格
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



