异常检测算法与人工神经网络入门
异常检测与新颖性检测算法
Scikit - Learn 实现了多种用于异常检测或新颖性检测的算法:
1. Fast - MCD(最小协方差行列式) :由 EllipticEnvelope 类实现,适用于异常值检测,特别是清理数据集。该算法假设正常实例(内点)来自单一高斯分布,且数据集被非该高斯分布生成的异常值污染。在估计高斯分布参数(即内点周围椭圆包络的形状)时,会忽略最可能是异常值的实例,从而更好地识别异常值。
2. 隔离森林 :是一种高效的异常检测算法,尤其适用于高维数据集。它构建一个随机森林,每个决策树随机生长:在每个节点,随机选择一个特征,再随机选择一个阈值(在最小值和最大值之间)将数据集一分为二,逐步将数据集分割,直到所有实例相互隔离。由于异常值通常远离其他实例,平均而言,它们比正常实例在更少的步骤内被隔离。
3. 局部异常因子(LOF) :也适用于异常检测。它将给定实例周围的实例密度与其邻居周围的密度进行比较,异常值通常比其 k 近邻更孤立。
4. 单类 SVM :更适合新颖性检测。核化 SVM 分类器先将所有实例隐式映射到高维空间,然后在该空间中使用线性 SVM 分类器分离两类。单类 SVM 则尝试在高维空间中将实例与原点分离,在原始空间中对应找到一个包含所有实例的小区域。若新实例不在此区域内,则为异常值。该算法有一些超参数需要调整,包括核化 SVM 的常用参数,以及一个对应新实例被误判为新颖实例的概率的边界超参数。它在高维数据集上效果很好,但和所有 SV
超级会员免费看
订阅专栏 解锁全文
11万+

被折叠的 条评论
为什么被折叠?



