读书笔记《Outlier Analysis》第七章有监督的异常检测

最新推荐文章于 2025-12-13 03:52:16 发布

原创

最新推荐文章于 2025-12-13 03:52:16 发布 · 4.4k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#异常检测 #监督学习 #无监督学习

本文探讨了监督异常检测中的挑战，如类不平衡、污染的正常类和部分训练信息。介绍了特征工程、主动学习、回归模型在异常检测中的应用。强调了成本敏感学习和自适应重采样的方法，以及如何在只有一类数据可用时使用无监督方法。最后，讨论了如何结合无监督和监督技术来处理半监督学习问题。

1. 引言

监督异常检测的目标是赋予学习方法特定于应用程序的知识，以获得与应用程序相关的异常。这一知识往往包括此类相关异常的例子，尽管其他类型的监督也是可能的。由于异常的罕见性质，这种例子往往是有限的。这给创建健壮模型带来了挑战。然而，即使有少量的数据可供监督，它的纳入通常会显著提高异常检测的准确性。关于异常分析的一般建议是在可能的情况下始终使用监督。

1.训练数据的特征（属性）问题

异常检测与分类问题的区别，主要是有以下几个具有挑战性的特征，这些特征有可能是孤立的，也有可能是组合的：

1、类不平衡：

由于异常值被定义为数据中的罕见实例，正常类和罕见类之间的分布将非常倾斜是很自然的。还有一个问题是假阳性（实际上是负的，被预测为正的）和假阴性（实际上是正的，预测为负的）的问题。通常情况下，假阳性比假阴性更容易接受。这导致了分类问题的成本敏感变化，其中分类的自然优化函数（即精度）被更改为成本敏感精度。

2、被污染的正常类例子（阳性-未标记类问题）：只有正类数据被标记为正，其他数据没有被标记。

在许多实际场景中，只有阳性类被标记，其余的“正常”数据包含一些异常。因此，这些正常的类被污染了。“正常类”也可以被认为是一个未标记的类。然而，在实践中，未标记类主要是正常类，其中的异常可能被视为污染物。

3、部分训练信息（半监督或新颖类检测）:训练数据不完整，可能异常类（负的）不完整；或只有正类数据，而无负类数据。

在许多应用程序中，一个或多个异常类的示例可能不可用。例如，在入侵检测应用程序中，当新类型的入侵随着时间的推移而出现时，可能会有普通类和一些入侵类的示例。在某些情况下，一个或多个普通类的示例是可用的。一个特别常见的研究案例是一类变化one-class variation，其中只有正常类的例子是可用的。这种特殊的情况，在这种情况下，训练数据只包含正常类，更接近无监督版本的异常值检测问题。除了适当区分训练和测试数据外，不需要对现有算法进行更改。

有些实际问题是以上三种情况的组合，它们的界限往往是模糊的。本章的目标是阐明分类方法所需要的修改，以解决这些不同的情况。

1.2 异常检测中特征工程问题

所有的分类问题，包括罕见的类问题，都严重依赖于用于学习过程的特征表示。例如，核方法经常用来通过隐士变换使非线性变换为线性可分。然而，在特征工程中，这种转换是在理解手头问题的域特性的情况下显式执行的。罕见类的学习就是这样一个领域，其中异常检测算法的输出可以作为工程特征来进行更有效的学习。因此，将探索使用无监督异常检测算法进行监督问题中特征工程。