孤立点是指数据集中那些小模式数据,它可能是度量或执行错误所导致的, 也可能是固有数据变异性的结果。Hawkins给出了其本质性定义: 孤立点是在数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差, 而是产生于完全不同的机制。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的; 二是找到一个有效的方法来挖掘这样的孤立点。
传统的孤立点挖掘算法
目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。
传统的孤立点挖掘算法
目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。

孤立点分析是数据挖掘中的重要任务,旨在识别数据集中的异常或与众不同的点。文章介绍了基于统计、距离、密度、偏离和聚类的五种传统算法,每种方法都有其优势和挑战。例如,基于统计的方法依赖于数据分布假设,而在高维数据中困难重重;基于距离的方法参数敏感,而基于密度的方法面临局部参数选择难题。这些方法对于理解和处理现实世界中的异常现象提供了有价值的工具。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



