异常检测

本文探讨了异常检测在机器学习领域的核心概念,强调了其在实际应用中的重要性。通过引用D.M.Hawkins的观点,解释了异常数据的特征:与大多数数据显著不同且在样本中占比小。文中还介绍了量化异常数据差异性的统计、距离和密度指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism." — D. M. Hawkins,Identification of Outliers, Chapman and Hall, 1980.

 

异常检测(anormaly detection),或者又被称为"离群点检测"(outlier detection),是机器学习研究领域中跟现实紧密联系、有广泛应用需求的一类问题。但是,什么是异常,并没有标准答案,通常因具体应用场景而异。如果要给一个比较通用的定义,很多文献通常会引用Hawkins在文章开头那段话。很多后来者的说法,跟这个定义大同小异。这些定义虽然笼统,但其实暗含了认定"异常"两个标准或者说假设:

1.异常数据跟样本中大多数数据不太一样

2.异常数据在整体数据样本中占比比较小

为了刻画异常数据的"不一样",最直接的做法是利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的梳理程度。

 

参考

机器学习-异常检测算法(1):https://zhuanlan.zhihu.com/p/27777266

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值