如何选择异常检测算法
1. 引言
集成方法可以通过多种方式提高基础检测器的性能。主要有两种方法:一是将单个基础检测器与特征装袋和子采样等方法结合使用;二是组合多个基础检测器以增加多样性。
在使用集成方法时,有一些有趣的现象。尽管基础检测器之间可能差异很大,但以集成方法为中心的这些检测器版本会变得更加相似。这部分是因为许多集成方法减少了检测器性能中方差分量带来的差异。从集成中心性能的角度来看,不仅检测器的定性性能很重要,其相对于基础检测器的性能提升也很关键。例如,在方差减少方法中,不稳定算法通常比稳定算法获得更大的性能提升。
在比较不同的异常检测算法时,会面临诸多问题。简单方法如平均 k - 近邻法、精确 k - 近邻法和马氏距离法往往表现出色。然而,以往的许多比较主要关注基础检测器的性能,未对这些算法的自然集成中心变体进行比较。而且,参数设置也是一个难题。即使参数具有相似的语义解释,不同的参数选择也会导致算法性能有很大差异。例如,在淋巴造影数据集上,LOF 算法和平均 k - 近邻算法在不同的 k 值下表现不同。当 k 在 30 到 50 之间时,平均 k - 近邻法在任何 k 值下都无法匹配 LOF 的最佳性能,但 LOF 在整个性能设置范围内的表现较差,而平均 k - 近邻算法在 k 值的整个范围内表现更稳定。
在无监督异常检测问题中,需要在一系列“合理”的参数值范围内比较算法,因为最佳参数值通常是未知的。不稳定算法在使用最佳参数进行比较时可能具有优势,但在大范围的值上表现不佳。此外,不同数据集上算法的稳定性也不同,例如基于原始距离的算法在不同类型的数据集上更稳定。
比较使用具有不同语义解释参数的算法更加困难。使用每个算法的最佳参数值进
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



