2、异常检测:概念、方法与应用

异常检测:概念、方法与应用

1. 异常的类型

1.1 基于数据点的异常

数据集中可能存在因不可避免的随机误差或与数据采样方式相关的系统误差导致的异常值。异常是那些我们不期望存在的离群值或其他值,只要有数据集存在,就可能出现数据异常。

例如,在甲状腺诊断值的数据集中,大部分数据点表明甲状腺功能正常,而异常值则代表甲状腺患病。这些异常值不一定是离群值,但考虑到所有正常数据,它们存在的概率较低。另外,检测到的个别高额购买也可标记为异常,因为按定义它们不应发生或发生概率极低,这种情况可标记为潜在的欺诈交易,并联系持卡人确认购买的有效性。

异常和离群值有所不同,数据集通常会包含离群值,但不应包含异常。“异常”和“离群值”有时会互换使用,但异常并不总是离群值,离群值也不都是异常。

1.2 基于上下文的异常

基于上下文的异常是指那些乍一看正常,但在各自上下文中被视为异常的数据点。以个人消费为例,某些节日附近的购买激增是正常的,但在八月中旬出现类似情况就可能显得异常。比如,一个人在黑色星期五的大量购买不会被标记为异常,因为这是该时期常见的消费行为;但如果在其他月份出现与以往购买历史不符的大量购买,就会被标记为异常。

再如,一个拥有电动汽车的人从不购买汽油,突然购买汽油在其个人背景下就是异常行为,尽管购买汽油对很多人来说是正常的。

1.3 基于模式的异常

基于模式的异常是指偏离其历史对应模式和趋势的情况,通常出现在时间序列或其他基于序列的数据中。

在出租车公司的例子中,四月份的乘客接送数量与全年其他时间基本一致,但极地涡旋来袭后,数量明显下降,图表

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值