0.概述
DBSCAN(density-based spatial clustering of applications with Noise),与划分和层次聚类的方法不同,它将簇定义为密度相连的最大点的集合,能够把具有足够高密度的区域划分为簇,并可以在有噪声的的空间数据中发现任意形状的簇。和KMEANS算法不同,该算法不用提前指定分类的数目。
1.相关概念
E临域 :给定对象周围半径为E内区域
核心对象:如果给定对象的E邻域的样本点数大于或等于MinPts,则称该对象为核心对象
直接密度可达:如果样本点q在p的E邻域中,且p为核心对象,则称对象q从对象p直接密度可达
密度可达:简单而言,如果上面的对象q从对象p直接密度可达,任何直接密度可达或者密度可达p的点都可以密度可达q。简而言之,传导的直接密度可达被称为密度可达
密度相连:如果对象o密度可达对象p和对象q,则称p和q密度相连
DBSCAN算法的目的是找到密度相连对象的最大集合。
2.算法流程
上述流程重复进行,直到所有点都被找到。