大数据中基于集成角度的异常值检测方法
1 背景知识
在大数据异常值检测领域,有几种关键的算法为后续的研究提供了基础。
1.1 局部敏感哈希函数(LSH)
局部敏感哈希函数是一种降维技术,它通过将最相似的数据分组到一个桶中,而无需检查每一对数据(与PCA等方法不同)。对于欧几里得距离度量的LSH家族,每个LSH家族需要一个随机因素,这里是空间S中的一条随机线,该随机线被划分为大小为a的桶。哈希函数将每个点si投影到该线上,桶号就是哈希si的结果。为了提高方法的准确性,可以选择多条随机线,将每个数据实例投影到这些线上。当使用该方法对d维数据集进行降维时,如果随机选择m条线并将数据实例投影到这些线上并哈希到桶号,就可以得到一个m维的数据集。
LSH判断两个点是否为相似点的条件如下:
- 如果d(s1, s2) < d,则h(s1) = h(s2),即至少有p1的概率是相似点候选。
- 如果d(s1, s2) > d,则h(s1) = h(s2),即最多有p2的概率是相似点候选。
1.2 基于角度的异常值检测方法
传统方法在处理高维数据时往往表现不佳,因为它们依赖于数据距离。而基于角度的异常值检测(ABOD)方法对距离不太敏感。在一个数据集中,簇内的数据点(O)与任意一对点形成的角度往往差异很大,而簇外的点与其他点对形成的角度则趋于相同。因此,角度方差低的点被认为是异常值。
ABOD为所有点分配一个“异常度”,通过对这些点进行排序可以检测出异常值。该算法的一个重要优点是不需要任何额外的参数。其计算角度的公式如下:
对于数据点s1, s2和s3,角度的余弦值为:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



