异常检测:概念、方法与应用
1. 异常的类型
1.1 基于数据点的异常
数据集中可能存在因不可避免的随机误差或与数据采样方式相关的系统误差导致的异常值。异常是那些我们不期望存在的离群值或其他值,只要有数据集存在,就可能出现数据异常。
例如,在甲状腺诊断值的数据集中,大部分数据点表明甲状腺功能正常,而异常值则代表甲状腺患病。这些异常值不一定是离群值,但考虑到所有正常数据,它们存在的概率较低。另外,检测到的个别高额购买也可标记为异常,因为按定义它们不应发生或发生概率极低,这种情况可标记为潜在的欺诈交易,并联系持卡人确认购买的有效性。
异常和离群值有所不同,数据集通常会包含离群值,但不应包含异常。“异常”和“离群值”有时会互换使用,但异常并不总是离群值,离群值也不都是异常。
1.2 基于上下文的异常
基于上下文的异常是指那些乍一看正常,但在各自上下文中被视为异常的数据点。以个人消费为例,某些节日附近的购买激增是正常的,但在八月中旬出现类似情况就可能显得异常。比如,一个人在黑色星期五的大量购买不会被标记为异常,因为这是该时期常见的消费行为;但如果在其他月份出现与以往购买历史不符的大量购买,就会被标记为异常。
再如,一个拥有电动汽车的人从不购买汽油,突然购买汽油在其个人背景下就是异常行为,尽管购买汽油对很多人来说是正常的。
1.3 基于模式的异常
基于模式的异常是指偏离其历史对应模式和趋势的情况,通常出现在时间序列或其他基于序列的数据中。
在出租车公司的例子中,四月份的乘客接送数量与全年其他时间基本一致,但极地涡旋来袭后,数量明显下降,图表
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



