Anomaly Detection with Partially Observed Anomalies译文

Anomaly Detection with Partially Observed Anomalies

摘要

       在本文中,我们考虑了异常检测的问题。先前的研究主要根据标签信息是否可用来以有监督或无监督的方式处理此任务。但是,总是存在与两种标准方式不同的设置。在本文中,我们解决了部分观察到异常的情况,即,我们得到了大量未标记的实例以及少数标记的实例异常。我们将此问题称为具有部分观察到的异常的异常检测,并提出了一种两阶段方法ADOA来解决它。首先,通过解决异常之间的差异,将观察到的异常聚类,同时对未标记的实例进行过滤以获得潜在的异常和可靠的正常实例。然后,对于上述实例,将根据其标签的置信度将权重附加到每个实例,并建立一个加权的多类模型,该模型将进一步用于区分正常实例的不同异常。实验结果表明,在上述情况下,现有方法的性能不能令人满意,并且所提出的方法的性能明显优于所有这些方法,从而验证了所提出方法的有效性。

1. 介绍

       异常检测[5]是一种广泛使用的技术,旨在从数据集中的常规行为中识别出意外模式。 这些意外模式通常称为异常或异常值,通常是由某种恶意目的或非法活动产生的。 异常检测非常重要,可以在各种应用中提供重要的帮助,例如入侵检测[10],欺诈检测[16],故障检测[14],可疑交易检测[23]和异常移动活动检测[11], 等等
       为了处理此任务,基于机器学习的技术在过去几年中已被广泛采用,并且这些技术可以大致分为两类:基于非监督学习的方法[18]和基于监督学习的方法[12]。 传统上,开发了基于无监督学习的方法,其中仅可访问未标记的数据。 基于距离的方法[26],基于密度的方法[3]和基于隔离的方法[23]是这种方法的典型代表。
       另一方面,如果有足够的标记数据可用,则探索基于监督学习的方法,其中采用分类模型,例如支持向量机[33],决策树[35]和k最近邻[31]等。 可训练以进一步分类看不见的样本。 请注意,与无监督方法相比,有监督的方法始终可以借助足够的标记数据来提供更好的性能。 另外,通过使用标记和未标记的数据,探索了基于半监督学习的方法[30],并且通过组合不同的技术,还开发了混合方法[27]来解决这个问题。
       但是,在某些情况下难以获得足够的标记样本,而我们可以访问少量公认的异常以及足够的未标记样本。 让我们以恶意URL检测为例,在某些情况下,除了大量未标记的URL记录之外,在现有基于规则的系统的帮助下,我们只能获得少数带有标签的恶意URL。 与提供正样本和负样本的监督环境不同,在这里我们仅获得少量的正样本(恶意样本),因此不能直接采用监督方法。 另一方面,与无监督学习设置相比,我们还提供了一些带有标签的样本,这些样本可以为正确使用提供很大帮助。 在本文中,我们将此特殊异常检测设置称为具有部分观察到的异常的异常检测。
       有一种名为PU(正向和无标签)学习的范例[17,19],它的设置似乎与前面提到的相似。 但是,在PU学习中,正样本始终属于一个概念中心,这意味着正样本彼此相似,而在异常检测中,所谓的正样本(异常)通常彼此不相似, 他们可能会完全不同。 换句话说,我们不能断言两个异常值之间的差异小于异常和非异常之间的差异。 因此,将基于PU学习的技术直接应用于异常检测任务可能不会导致令人满意的性能。
       另一种称为半监督聚类的范式[1,34]处理的是其中数据被部分标记的聚类设置或其他类型的初步信息,其目的是将未标记的样本聚类为适当的聚类。 半监督学习似乎处理了我们描述的类似任务,但是,就像PU学习一样,在半监督聚类中,在同一聚类中标记的样本应该彼此相似,而在异常检测中,观察到的异常并不与此相符。
       在本文中,我们考虑了具有部分观测到的异常的异常检测的设置,并提出了一种称为ADOA(具有部分观测到的异常的异常检测)的方法来解决该问题。 ADOA遵循两个阶段的方式。在第一阶段,我们要解决的是,不应将观察到的异常简单地视为一个概念中心,并且通过假设异常属于k个不同的概念中心,首先将异常聚类为k个群集。然后,根据隔离度和与最近异常中心的相似度,从未标记的样本中选择潜在的异常样本和可靠的正常样本。在第二阶段,根据每个样本的附着标签的置信度为每个样本设置权重,并使用原始异常和选定样本,建立加权的多类别分类模型,以区分正常样本中的不同异常。在不同的数据集上进行的实验和实际的应用任务证明了我们方法的有效性。

2. 相关工作

       异常检测[5]处理从正常行为中识别意外模式的任务。 异常检测具有重大影响,并且可以在许多不同领域提供关键帮助。 在其发展过程中,已经提出了许多基于机器学习的方法来解决该问题[28],并且已广泛应用于许多应用中,例如入侵检测[10],欺诈检测[16],故障检测[14], 可疑交易检测[23]和异常活动活动检测[11]等。
       在已开发的方法中,基于无监督学习的方法[4,37]使用未标记的数据构建模型。 举例来说,基于距离的方法[15],基于密度的方法[3],基于隔离的方法[22、23]等。 由于无需标记数据,因此可以广泛使用这些方法。 但是,在许多应用领域,无监督方法可能无法成功达到所需的性能。
       另一方面,利用提供的标记数据,探索了基于监督学习的方法。 许多监督算法,例如支持向量机[33],决策树[35]和k最近邻[31]被相继采用来进行异常检测。 通过正确使用标签信息,基于监督学习的方法始终可以实现更好的性能。 除了这两个标准范例,还基于这些技术来探索其他方法,包括基于半监督学习的方法[30]和混合方法[27]来处理此任务。
       在某些情况下,仅提供遵循正常行为的样本[32],而看不见异常。 为此设置开发了像一类学习[7]和支持向量数据描述[21]这样的方法。 这些方法侧重于学习超球面以描述正常样本或学习超平面以最大余量将数据点与原点分开。
       PU(正向和未标记)学习[17]是半监督学习的一种特殊情况[6,36],当只有正向和未标记的数据可用而没有负向样本被标记时,它可以应对这种情况。在过去的几年中,已经提出了许多方法来处理这一任务。粗略地讲,这些方法可以分为三个家族。两步法[19,20]试图从未标记的数据中识别出一些可靠的负样本,然后可以应用传统的监督学习或半监督学习技术。成本敏感的学习技术[24]用于不正确的错误分类成本的二元分类也很容易用于处理此问题[8]。此外,还提出了凸方法来处理此任务[9]。请注意,如果我们在这里将异常视为阳性样本,则PU学习与部分检测到异常的异常检测有些相似。然而,最显着的差异是,PU学习中的正样本彼此相似,因此我们可以为它们找到一个正概念,而在异常检测中,异常总是多样化的,并且很少会聚集成一个概念集群,使标准的PU学习技术不适合处理异常检测任务。
       当所提供的数据被部分标记或使用其他类型的初步信息时,半监督聚类[1]处理该问题,目标是尝试将未标记的样本分配给适当的聚类。 从传统的聚类算法中可以概括出许多用于此任务的方法[2,34],并进行了修改以确保满足约束条件。 但是,就像PU学习一样,在半监督聚类中,在同一聚类中标记的样本应该彼此相似,而在异常检测中,观察到的异常与此不符。
       在本文中,我们专注于异常检测的特殊设置,即具有部分观察到的异常的异常检测。 与完全无监督的异常检测情况不同,我们有一些初步信息,即观察到的异常。 与监督设置不同,我们只有少量异常,而其他样本完全没有标签。 与PU学习和半监督聚类不同,标记的异常通常彼此不相似。

3. ANOMALY DETECTION WITH PARTIALLY OBSERVED ANOMALIES

       ADOA遵循两阶段方式。在第一阶段,处理观察到的异常和未标记的样本。我们指出,观察到的异常彼此不同,因此不应将它们简单地分类为一个概念中心。由于异常确实是多种多样的,因此我们首先尝试将它们分成不同的群集,以使每个群集中的样本彼此相似。对于未标记的数据,我们旨在充分探索它们的信息。因此,我们尝试从潜在的异常和可靠的正常样本中过滤掉它们,同时要考虑隔离度(稍后将要解释)和它们与观察到的异常的相似度。直觉是,一方面,潜在异常应该与正常样本不同(即,可以很容易地将其隔离);另一方面,它们应该类似于一些观察到的异常。在第二阶段,我们建立了一个加权的多类模型来区分正常样本中的不同异常。对于观察到的异常,权重设置为1,对于过滤后的样本,权重根据其附加标签的置信度设置。整个过程如图1所示,下面提供了ADOA的详细信息。

Stage one:将观测到的异常聚类,然后根据隔离度得分和与最近聚类中心的相似性得分,再无标签集中选择潜在的异常源和可靠的正常样本。 Isolation score:隔离的概念最早在[22]中提出。 他们表明,可以使用极为随机的树林来分离样本。 森林中的每棵树都是通过随机选择一个属性和相应的拆分值来建立的,以便随后在每个节点上进行生长。 由于异常很少且不同,因此它们总是被隔离在靠近树的根部的位置,而正常样本将进入树的深处。 为了获得隔离分数,将每个样本传递到树上,直到到达叶子为止,然后获取每棵树中的路径长度,然后可以为隔离林计算平均路径长度。 基于树上的平均路径长度,可以计算隔离度分数IS(x)来描述样本x异常的可能性。 令h(x)表示样本x在树上的路径长度,E(h(x))表示隔离树集合的平均路径长度。 假设有n个样本,让

未来再补充上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值