混合人工智能方法的异常值检测
1 引言
异常值检测在数据挖掘领域正迅速发展,因为在众多应用中,我们需要判断大型数据库中是否存在异常数据。这些应用涵盖金融欺诈检测,以及工业、医学、天文学、通信等多个领域。
目前,虽然已经提出了多种解决该问题的技术,但大多数算法复杂度高,导致处理时间长。而且,许多方法以“黑盒”形式向最终用户提供异常值信息,缺乏自动解释功能,最多只是给出聚类中心信息,需要人工后续解读结果。
为解决这些问题,我们提出了一种简单高效的混合人工智能方法,该方法算法复杂度低,不仅能检测异常值,还能向用户解释这些数据相对于整个数据集为何异常。
2 提出的混合方法
为介绍该混合人工智能方法,我们将依次解释异常值检测的基本算法、应用于数值和分类属性的相似度度量、数据聚类(原型)的实现方式、解释功能的概念化以及完整算法的总结。
2.1 异常值检测算法
该算法改编自自适应共振理论(ART)的人工神经网络范式,并结合了基于案例推理(CBR)方法和数据挖掘领域的思想。尽管存在更复杂的聚类算法,如 k - means 或期望最大化(EM),但我们选择 ART 是因为它简单且算法复杂度可接受。后续实验表明,我们的 ART 混合变体处理时间比其他成熟的聚类方法更快。
ART 最初接受实例(记录或交易),根据实例间的相似度,将它们合并形成一个原型(聚类),或分离形成两个原型。用户定义的阈值参数 U 控制实例间的相似度/不相似度。ART 范式与 CBR 方法有一定相似性,但最初它仅用于处理二进制数据进行图像分类,采用无监督学习模式。在我们的应用中,包含实例数量最少的聚类被视为异常值数据。 </
超级会员免费看
订阅专栏 解锁全文
867

被折叠的 条评论
为什么被折叠?



