《Data Mining:Concepts and Techniques》翻译与笔记

本文介绍了异常值检测的基本概念,包括全局异常值、上下文异常值和集合异常点,并讨论了基于模型的统计方法、基于邻近度的方法及基于聚类的方法等检测手段。此外,还探讨了高维数据下异常值检测面临的挑战及解决策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

12异常值

定义

异常值是显著偏离数据集的那些数据对象,其可能由不同的机理产生。

分类

全局异常值:显著偏离数据集中剩余数据的对象,是最常见的异常值类型。例子:在计算机入侵检测中,如果计算机的通信行为与正常模式不同(如短时间内广播大量的数据包),就有可能受到了黑客入侵。

上下文异常值:在具体的背景下,显著偏离数据集。例子:某个温度值,在不同的地方,不同的季节,会考虑成为上下文异常值;在信用卡欺诈检测中,对于某个使用超过90%信用额度的用户,如果该用户是低信用额度的用户,这是一个正常现象。但如果是高信用额度的用户,就考虑为上下文异常值,这样的异常值意味着新的商机(提高额度带来更高的收益)。

集合异常点:单个数据点不会是异常值,但多个数据点聚合就会偏离整体数据集。例子:在股票交易中,若在短时间内两家公司有大量相同的股票交易,就可以考虑有人在操作交易市场。

检测方法

基于模型的统计方法:效果依赖于数据是否由统计模型产生
基于邻近度的方法:效果依赖于测度的定义
基于聚类的方法:聚类操作耗时,不适用于大规模数据

高维数据的检测:随着维度的增加,噪声的恶化会变严重
1.拓展传统的异常检测
HilOut算法、pca降维(取方差小的特征空间作为检测空间)
2.在子空间搜索异常值(异常值容易解释)
启发式在子空间搜索、稀疏系数
3.对高维数据建模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值