A comparative study of RNN for outlier detection in data mining

本文探讨了一种名为Replicator Neural Networks的RNN变体在异常检测中的使用,与其他三种方法在不同数据集上的对比,包括HBK、Wood数据集、Wisconsin Breast Cancer和Network Intrusion Detection。实验结果显示RNN在某些情况下表现出优越性,但异常检测的评估标准仍有待改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

  提出了一种用于异常检测的RNN(貌似不同于循环神经网络,叫replicator neural networks)。然后将该算法与其他三种算法在公开的数据集上做了对比。较小的数据集可以洞悉RNN的原理和不足,较大的数据集可以证明其可扩展性和实用价值。论文还提供了对比异常检测能力的流程和基准。

简介

  异常点往往被认为是回归模型中的残差或者密度模型中的远离点
  介绍了参数化方法和非参数化方法的差异,本文方法是非参数化方法。

用于异常检测的RNNs

  RNN结构如下图(感觉跟NN没啥区别),除了输入输出,就是三个隐藏层,输出的拟合目标值就是输入。为了使得输出是离散值,激活函数设计成了右图这种奇葩曲线。
网络结构和激活函数
  此外还定义了异常度(Outlier Factor),OFi代表第i个数据的重构误差平均值。这样就可以用OFi来给每个点打分。

异常检测方法的对比

  异常检测的方法(包括聚类、预估等方法)浩如烟海,如果真的要一一对比,可以另写一篇paper啦,所以就先只列出三种方法。

实验设计

  每种异常检测方法对于异常判定都有各自的偏向。需要通过多种数据集来探究不同方法的偏向,然后研究针对数据集的特点来用适合该特点的特定异常检测方法。
  统计学中考虑了三种定性的异常。聚类异常(Cluster outliers)发生在方差很小的聚类中,放射状异常(Radial outliers)是指偏离了数据分布的主轴方向。散布异常(Scattered outliers)就是随机的出现在一些地方。
  实验所用数据集包含以上三种异常值的不同组合。统计学中往往将污染等级定为超过40%,而数据挖掘中往往指数量级小于4%的部分。对于欺诈等罕见异常值,显然后者的定义更加合适。
  可以发现,来自统计学数据集的异常主要是测量误差或者数据错误,而来自数据挖掘数据集的异常往往是因为属于不同的类别。

实验结果

HBK

  HBK是一个人工构建的数据集,有14个异常值(太少了点吧)。基于回归的方法一般只能找到头10个。而这10个远远偏离正常数据的中心或者远离回归的平面。剩下的4个点没有这么弱,虽然也远离正常数据,但是离回归面比较近。
  算法对比就不说了,这个数据集太扯了点。

Wood Data

The Wood dataset consists of 20 observations with data points 4, 6, 8, and
19 being outliers

  很难通过观测直接判断异常点。实验结果就不细说了,跟写实验报告差不多。

Wisconsin Breast Cancer Dataset

  这个数据集大家普遍反映很难辨别异常。所以我们就在恶性程度8.07% to 35%的数据上进行了采样。
  这些方法普遍随着恶性程度的降低,辨识性能下降。(异常值甚至比正常值更多的时候,就不叫异常检测,而应该是二分类问题了吧)

Network Intrusion Detection

  这个数据包含了一个网络连接的信息,包括了传输的bytes和连接的类别。在原始数据集中有将近五十万个事件,并打上了标签,分为入侵和非入侵。
  我们选择了41个被认为与入侵高度相关的特征。

The original dataset contained 4,898,431 data records, including 3,925,651
attacks (80.1%).

  显然,入侵比非入侵多这么多,搞不了异常检测,所以又对入侵数据采样了。最终使得入侵数据仅占0.48%。
  接着,根据服务类型,又将这些数据细分为5类,旨在在各个类别中找出异常。
  结果就是几个表和图。(终于看出RNN比其他方法要好了。。)

讨论和总结

罗列下本文主要贡献:

  • 通过实验评价了RNN在异常检测中的性能
  • 将常见的异常检测公开数据集进行了分类
  • 从统计学和数据挖掘的角度对比了3中方法和RNN在异常检测中的效果。
  • 通过异常种类:聚类、放射、散落和污染程度来刻画大型数据集中异常检测的难度。

      总之,异常检测就像聚类——一种无监督学习问题一样,不能直接基于简单的精度、准确率或者召回率来应用。在客观评价异常检测性能的方式上还需要做更多努力。

高动态范围 (High Dynamic Range,简称HDR) 视频是指能够显示更广泛亮度区域和更丰富细节的视频格式。为了在标准的显示设备上播放HDR视频,需要进行色调映射 (Tone Mapping) 处理,将HDR视频转换为标准动态范围 (Standard Dynamic Range,简称SDR) 视频。 《高动态范围视频的色调映射算法比较评价》是一篇综述性文章,对目前的色调映射算法进行了对比和评估。 首先,文章介绍了需要解决的问题,即如何保留HDR视频的丰富细节和对比度,同时适应不同的SDR显示设备,使得观众在任何显示设备上都能够获得良好的观看体验。 接下来,文章列举了几种主要的色调映射算法,并对它们进行了详细分析和比较。比如,全局映射算法主要通过压缩整个亮度范围来适应SDR设备,但可能会损失细节;局部映射算法则更加注重保留细节,但可能导致亮度不连续性;基于图像分割的算法可以在图像不同区域中应用不同的映射策略,但需要更多的计算资源。 在比较过程中,文章对每种算法的映射质量、计算复杂度和实时性等指标进行了评估。并举例说明了不同算法在真实HDR视频上的应用效果。 最后,文章总结了各种算法的优缺点,并提出了未来研究的方向。例如,如何在保留细节的同时提高计算效率,以适应高分辨率和高帧率的HDR视频。同时,如何结合人眼感知和动态映射策略,以提供更好的观看体验。 综上所述,《高动态范围视频的色调映射算法比较评价》通过详细分析和比较不同的色调映射算法,为高动态范围视频的后续研究和开发提供了重要参考和指导。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值