一、概述
- 前篇:聚类算法之密度聚类(DBSCAN):
- 在DBSCAN算法中,有两个初始参数 ϵ ϵ ϵ(邻域半径)和 m i n P t s minPts minPts(邻域最小样本数)需要手动设置,并且聚类的结果对这两个参数的取值非常敏感,不同的取值将产生不同的聚类结果。
- 为了克服DBSCAN算法这一缺点,提出了OPTICS算法(Ordering Points to identify the clustering structure)对点排序以此来确定簇结构。
- OPTICS是DBSCAN的一个扩展算法。该算法可以让算法对半径 ϵ ϵ ϵ不再敏感。只要确定 m i n P t s minPts minPts的值,半径 ϵ ϵ ϵ的轻微变化,并不会影响聚类结果。
- OPTICS并不显示的产生结果类簇,而是为聚类分析生成一个排序,这个排序代表了各样本点基于密度的聚类结构。换句话说,从这个排序中可以得到基于任何参数 ϵ ϵ ϵ和 m i n P t s minPts minPts的DBSCAN算法的聚类结果
二、核心距离与可达距离
- 核心距离:样本点的核心距离是使得其成为核心点的最小半径,即是样本点距离其第minPts个最近的点之的距离:
- 可达距离:对于样本点x的邻点 x 1 、 x 2 、 … x n x_1 、x_2 、…x_n x1、x2、…xn而言,如果他们到点 x x x的距离大于核心距离,则其可达距离为该点到点 x x