45、基于过采样主成分分析的异常检测方法解析

基于过采样主成分分析的异常检测方法解析

一、引言

在实际应用中,可用的标记数据极少,且人们关注的事件极为罕见或未曾发生过,这使得异常检测越来越受关注。异常检测可用于多个领域,如国土安全、信用卡欺诈检测、网络安全中的入侵和内部威胁检测、故障检测以及恶性诊断等。它旨在找出罕见实例或偏离的数据,能够处理极度不平衡的数据分布问题,例如捕捉网络流量中占比小的异常情况。

过去已经提出了许多异常检测方法:
- 基于密度的局部异常因子(LOF) :通过每个实例邻居的密度来定义异常程度,并为所有实例得出可疑排名。其重要特性是考虑局部数据结构来估计密度,能发现隐藏在全局数据结构下的异常值。
- 基于角度的异常检测(ABOD) :利用目标实例与其他实例之间角度的变化来检测异常。异常实例在相关角度上的方差较小。不过,ABOD的时间复杂度太高,难以处理大型数据集。后来提出的快速ABOD是对原始ABOD的近似,只考虑目标实例与其k个最近邻中任意实例对之间角度的方差,但这些方法仍因计算成本高而难以扩展到大规模数据集。

本文提出的方法基于这样的观察:移除(或添加)一个异常实例比移除(或添加)一个正常实例对主方向的影响更大。通过“留一法”(LOO)检查每个点对主方向变化的“有或无”影响,可用于数据清洗。在获得干净的数据集后,提取主导主方向来刻画数据集的正常特征,还能评估新数据点的“有或无”影响,定义可疑分数,当分数超过阈值时将其视为异常值,从而实现在线异常检测。为克服大数据集下单数据点影响减弱的问题,采用“过采样”方案放大异常实例的影响,并研究了主方向的快速更新以满足在线检测需求。

二、过采样主成
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值