读书笔记《Outlier Analysis》 第十章 离散序列中的异常检测

离散序列异常检测
本文探讨了连续时间序列中的异常检测方法,特别是针对离散值序列。文章介绍了两种主要异常类型——位置异常值(上下文异常)和组合异常值(集体异常),并详细讨论了马尔可夫模型在预测中的应用及其它高效模型。此外,还提到了在有监督学习场景下异常检测的应用。

1.引言

第十章讨论的是连续时间序列中的异常检测。其中每个时间戳中的单个元素是离散值(即分类)。这种离散的时间序列也被称为序列。离散值时间场景出现在许多应用中,如系统诊断、入侵检测和生物应用中。

在入侵检测和系统诊断等领域中,离散序列是由时间排序引起的,而在生物数据等领域,离散序列是由物理排序引起的。

时间数据通常对实际场景中的分析有一个特定的方向(即时间上向前),而基于位置关系的数据可能不是这样。

以下是产生离散数据序列的一些应用实例:

1、系统诊断:许多自动化系统不断生成有关系统状态的数据。如Unix系统调用、机械系统或基于主机的入侵检测系统。

2、生物数据:生物数据通常包含氨基酸序列,其中异常子序列可以提供关于基因组序列不寻常性质及其对不同类型遗传条件的影响的有趣信息。

3、用户操作序列:这些序列是由不同应用程序域中的用户操作创建的:

    web日志包含个人访问web站点的长序列。通常希望识别出指示异常或侵入性活动的有趣子序列。

    客户交易可能包含购买行为序列。

    经常记录网上银行网站等网站上的用户操作。这与web日志的情况相似,只是银行站点的日志通常更详细。

 

离散序列不同于连续时间序列数据。因此,在连续数据中常用的偏差检测回归建模方法不同意推广到这种情况。然而,异常值也可以用特定时间戳的值偏离预测值的方式来定义,也可以用序列值的异常连续组合来定义。关键是在离散情况下定义一个适当的预测或规律性模型,它类似于他的连续对应物。与连续数据的情况一样,异常值有两种类型,这取决于特定位置是否被视为异常值,或者符号的组合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值