异常检测入门:概念、类别与应用场景
1. 什么是异常?
在开始学习异常检测之前,我们需要先明确目标,即了解什么是异常。通常,异常是指偏离预期的结果或值,但确定异常的具体标准会因情况而异。
1.1 异常天鹅的例子
想象我们在湖边观察天鹅。一开始,我们看到的天鹅都是白色的,于是我们会认为下一只出现的天鹅也会是白色。然而,当一只黑天鹅出现时,它完全违背了我们的预期,成为了一个异常。这里的黑天鹅并非像特别大或特别小的白天鹅那样的离群值,而是颜色完全不同的天鹅,所以它是一个异常。
从概率角度来看,如果这个湖中有 1000 只天鹅,其中只有 2 只是黑天鹅,那么一只天鹅是黑色的概率就是 2 / 1000,即 0.002。根据概率阈值(即被认为正常的结果或事件的最低概率),黑天鹅会被标记为异常,因为它在这个湖中极为罕见。
1.2 异常作为数据点
我们可以将这个概念应用到现实场景中。以一家生产螺丝的工厂为例,为了保证一定的质量水平,工厂会从每批产品中抽取单个螺丝进行测试,测量每个抽样螺丝的密度和抗拉强度(螺丝在应力下抗断裂的能力)。
在测试结果中,数据点会根据其位置被识别为“好”或“异常”。如果一个新抽样螺丝的数据点落在可接受范围之外,比如其密度对应的抗拉强度极低,那么这个螺丝就不适合使用,会被标记为异常。工厂可以借此调查为什么这批螺丝会变得易碎。对于一家规模较大的工厂来说,保持高标准的质量以及稳定的高产量以满足消费者需求非常重要。在这种情况下,自动化检测异常以避免发出有缺陷的螺丝是至关重要的,并且具有极高的可扩展性。
1.3 时间序列中的异常
当我们引入时间作为一
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



