12、大数据中基于集成角度的异常值检测方法

大数据中基于集成角度的异常值检测方法

1 背景知识

在大数据异常值检测领域,有几种关键的算法为后续的研究提供了基础。

1.1 局部敏感哈希函数(LSH)

局部敏感哈希函数是一种降维技术,它通过将最相似的数据分组到一个桶中,而无需检查每一对数据(与PCA等方法不同)。对于欧几里得距离度量的LSH家族,每个LSH家族需要一个随机因素,这里是空间S中的一条随机线,该随机线被划分为大小为a的桶。哈希函数将每个点si投影到该线上,桶号就是哈希si的结果。为了提高方法的准确性,可以选择多条随机线,将每个数据实例投影到这些线上。当使用该方法对d维数据集进行降维时,如果随机选择m条线并将数据实例投影到这些线上并哈希到桶号,就可以得到一个m维的数据集。

LSH判断两个点是否为相似点的条件如下:
- 如果d(s1, s2) < d,则h(s1) = h(s2),即至少有p1的概率是相似点候选。
- 如果d(s1, s2) > d,则h(s1) = h(s2),即最多有p2的概率是相似点候选。

1.2 基于角度的异常值检测方法

传统方法在处理高维数据时往往表现不佳,因为它们依赖于数据距离。而基于角度的异常值检测(ABOD)方法对距离不太敏感。在一个数据集中,簇内的数据点(O)与任意一对点形成的角度往往差异很大,而簇外的点与其他点对形成的角度则趋于相同。因此,角度方差低的点被认为是异常值。

ABOD为所有点分配一个“异常度”,通过对这些点进行排序可以检测出异常值。该算法的一个重要优点是不需要任何额外的参数。其计算角度的公式如下:
对于数据点s1, s2和s3,角度的余弦值为:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值