Local Outlier Factor 局部离群因子
特点:
- 局部敏感性:LOF 考虑了数据点在其邻域中的密度,因此能有效识别在不同密度区域内的离群点。
- 自适应性:可以自适应地处理不同分布的点,特别适合于存在局部密度变化的数据集。
- 无监督学习:LOF 是一种无监督学习算法,不需要事先标记数据。
LOF 算法通过比较数据点与其邻近点的密度来判断一个点是否为离群点。其基本步骤如下:
-
定义邻域:对于每个数据点,首先确定其 k 个最近邻(k-nearest neighbors)。
-
计算可达距离:计算每个点与其邻域中其他点的可达距离。可达距离是指从一个点到其邻居的距离,通常是考虑到邻域内的密度的影响。
-
计算局部可达密度(Local Reachability Density, LRD):对每个点计算其局部可达密度,表示在其邻域内的点的密度。
-
计算 LOF 值:LOF 值是通过比较一个点的局部可达密度与其邻居的局部可达密度来计算的。LOF 值越高,表示该点相对于其邻居的密度越低