无监督异常检测集成方法探索:实证分析
1. 引言
异常检测旨在识别那些与其他数据显著偏离的罕见观测值。异常值不仅可能是测量或其他类型错误的结果,还可能是能为数据提供重要见解的有趣模式。在现实场景中,异常值主要被视为数据中异常行为有意义信息的来源,例如网络异常检测和欺诈检测。
文献中已经提出了多种异常检测方法,如基于 k - NN 距离的方法、基于密度的 LOF 方法以及专门为高维数据设计的方法等。然而,这些方法采用的方法差异很大,实际上,对于所有或大多数数据集,并没有一种特定的最优异常检测方法。因此,对于给定的数据集,考虑不同检测方法的异常结果进行进一步分析是很有必要的,这就引出了用于异常检测的集成学习。
集成学习已广泛应用于各种知识发现问题,如分类和聚类。但异常检测集成近年来才受到关注。与分类和聚类集成不同,由于数据高度不平衡,异常检测对单个异常点的预测准确性非常敏感,检测到一个新的异常点也可能具有很高的价值。异常检测集成的主要目的是从集成中的每个组件检测器中获取多个新的真实异常值,同时通过提高大多数检测器检测到的异常值的置信度来增强结果的鲁棒性。
2. 成员选择
2.1 评估检测器的准确性和多样性
对于一个集成,异常检测器应既准确又与集成中的其他检测器有足够的差异。建议在成员的准确性和多样性之间保持平衡。不准确但多样化或不太准确的检测器会误导检测结果,而准确但缺乏多样性的检测器会导致检测到的异常值集合相似,从而使集成变得无效。
在无监督场景中,由于缺乏真实标签,无法直接评估检测器的准确性和多样性。文献中使用了一些方法来解决这个问题,如使用所有检测器前 k 个结果的并集、平均得分向量的相关性
超级会员免费看
订阅专栏 解锁全文
3844

被折叠的 条评论
为什么被折叠?



