2、异常检测:原理、方法与应用

异常检测:原理、方法与应用

1. 异常与离群值的区别

在数据集里,离群值是预料之中会存在的,可能由不可避免的随机误差或者与数据采样方式有关的系统误差导致。而异常则是那些本不应存在的离群值或其他数值。数据异常可能出现在任何有数值的数据集里。

举个例子,在甲状腺诊断值的数据集中,大部分数据点显示甲状腺功能正常,此时异常值就代表甲状腺患病的情况。这些异常值不一定是离群值,但结合所有正常数据来看,它们存在的概率很低。另外,检测到个别购买金额过高的交易也可将其标记为异常,因为按常理这种情况不太可能发生,概率极低,通常会被标记为潜在的欺诈交易,然后联系持卡人确认交易的有效性。

简单来说,数据集里会有离群值,但不应有异常。“异常”和“离群值”有时会被混用,但实际上异常不一定是离群值,离群值也不一定是异常。

2. 不同类型的异常
  • 基于数据点的异常 :以甲状腺诊断值数据集为例,多数数据表明甲状腺功能正常,异常值代表患病甲状腺,虽不一定是离群值,但存在概率低。
  • 基于上下文的异常 :这类异常的数据点乍一看正常,但在特定上下文中就是异常。比如个人消费,某些节假日附近消费激增是正常的,但在八月中旬就可能显得异常。再如,一个拥有电动汽车的人突然购买汽油,就与他的日常情况不符,属于异常。
  • 基于模式的异常 :指与历史模式和趋势背离的情况,常见于时间序列或其他基于序列的数据中。例如出租车公司四月的乘客接送数量一直比较稳定,但遇到极地涡旋后数量大幅下降,这在图表上表现为异常。在监控公司网络流量时,如
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值