1. 引言
监督异常检测的目标是赋予学习方法特定于应用程序的知识,以获得与应用程序相关的异常。这一知识往往包括此类相关异常的例子,尽管其他类型的监督也是可能的。由于异常的罕见性质,这种例子往往是有限的。这给创建健壮模型带来了挑战。然而,即使有少量的数据可供监督,它的纳入通常会显著提高异常检测的准确性。关于异常分析的一般建议是在可能的情况下始终使用监督。
1.训练数据的特征(属性)问题
异常检测与分类问题的区别,主要是有以下几个具有挑战性的特征,这些特征有可能是孤立的,也有可能是组合的:
1、类不平衡:
由于异常值被定义为数据中的罕见实例,正常类和罕见类之间的分布将非常倾斜是很自然的。还有一个问题是假阳性(实际上是负的,被预测为正的)和假阴性(实际上是正的,预测为负的)的问题。通常情况下,假阳性比假阴性更容易接受。这导致了分类问题的成本敏感变化,其中分类的自然优化函数(即精度)被更改为成本敏感精度。
2、被污染的正常类例子(阳性-未标记类问题):只有正类数据被标记为正,其他数据没有被标记。
在许多实际场景中,只有阳性类被标记,其余的“正常”数据包含一些异常。因此,这些正常的类被污染了。“正常类”也可以被认为是一个未标记的类。 然而,在实践中,未标记类主要是正常类,其中的异常可能被视为污染物。
3、部分训练信息(半监督或新颖类检测):训练数据不完整,可能异常类(负的)不完整;或只有正类数据,而无负类数据。
在许多应用程序中,一个或多个异常类的示例可能不可用。 例如,在入侵检测应用程序中,当新类型的入侵随着时间的推移而出现时,可能会有普通类和一些入侵类的示例。 在某些情况下,一个或多个普通类的示例是可用的。 一个特别常见的研究案例是一类变化one-class variation,其中只有正常类的例子是可用的。 这种特殊的情况,在这种情况下,训练数据只包含正常类,更接近无监督版本的异常值检测问题。 除了适当区分训练和测试数据外,不需要对现有算法进行更改。
有些实际问题是以上三种情况的组合,它们的界限往往是模糊的。本章的目标是阐明分类方法所需要的修改,以解决这些不同的情况。
1.2 异常检测中特征工程问题
所有的分类问题,包括罕见的类问题,都严重依赖于用于学习过程的特征表示。例如,核方法经常用来通过隐士变换使非线性变换为线性可分。然而,在特征工程中,这种转换是在理解手头问题的域特性的情况下显式执行的。罕见类的学习就是这样一个领域,其中异常检测算法的输出可以作为工程特征来进行更有效的学习。因此,将探索使用无监督异常检测算法进行监督问题中特征工程。
1.3 主动学习:用于解决训练数据的缺乏问题
当类别不平衡时,训练数据的缺乏是一个常见的问题,即使在一个适度的大型训练数据中,也可能只有少数罕见的实例可用,这可能导致不良结果。为了解决这一问题,主动学习被用来以引导的方式标记训练实例。
1.4 回归模型用于异常检测
本章大部分内容将集中在ground-truth可用(监督)的情况下。但是也会研究无监督异常检测和监督回归建模之间的联系。
最近的研究表明,可以使用现成的回归模型的反复应用来进行无监督异常检测。其基本思想是使用回归建模从剩余的属性中预测每个属性,然后结合这些模型的错误来创建异常值分数。
回归建模的特点是,它为使用数百个现成的回归模型来进行有效的无监督异常检测打开了大门。
2.完全监督:稀有类别的检测
2.1 基本介绍
罕见类检测或类不平衡问题是监督异常检测中常见的问题。
很多时候需要做到“宁可错杀一千(正常的),不可漏掉一个(异常的)”:即如果测试实例中有将近一半都是异常的,可以以牺牲正常类上的精度为代价来提高异常类的分类精度。
在实际问题中,这往往是很有用的。例如,对欺诈性交易的错误分类(可能导致数百万的损失)比对正常交易的错误分类(这回给最终用户带来不正确的警告)更昂贵。再如,在医疗检测中,将一个有病的病例诊断为无病的代价,比将无病的病例诊断为有病的病例的代价,往往前者的代价大得多。
所以,在实际问题中,往往错误分类异常实例的成本高得多。

本文探讨了监督异常检测中的挑战,如类不平衡、污染的正常类和部分训练信息。介绍了特征工程、主动学习、回归模型在异常检测中的应用。强调了成本敏感学习和自适应重采样的方法,以及如何在只有一类数据可用时使用无监督方法。最后,讨论了如何结合无监督和监督技术来处理半监督学习问题。
最低0.47元/天 解锁文章
3720

被折叠的 条评论
为什么被折叠?



