每个样本的异常分数称为局部异常因子。异常分数是局部的,取决于相对于周围邻域的隔离程度。局部性由 k 近邻给出,并使用距离估计局部密度,通过将样本的局部密度与其邻居的局部密度进行比较,可以是被密度明显低于其邻居的样本,这些样本就被当作是异常样本点。
算法原理 & LOF 算法相关定义:
-
d(p,o)d(p, o)d(p,o):点 p 和点 o 之间的距离
-
k-distance: 第 k 距离,距离点 p 第 k 远的那个距离值,即点 p 距离第 k 个邻居的距离
-
K-distance neighborhood of p:第 k 距离邻域 Nk(p)N_k(p)Nk(p),就是点 p 的第 k 距离及之内的所有点,即点 p 的 k 个邻居
-
reach-distance:可达距离
点 o 到点 p 的第 k 可达距离定义为:
reach-distancek(p,o)=max{ k−distance(o),d(p,o)}\text{reach-distance}_k(p, o) = \max\{ k - distance(o), d(p,o)\}reach-distancek(p,o)=max{ k−distance(o),d(p,o)}
即点 o 到点 p 的第 k 可达距离,至少是点 o 的第 k 距离,或者为点 o 和点 p 之间的真实距离,这就意味着,离点 o 最近的 k 个点,o 到它们的可达距