博客长期更新,本文最新更新时间为:2025年3月22日。
一、算法原理
1、密度聚类
密度聚类是将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
DBSCAN是一种典型的密度聚类算法,它使用两个参数来描述样本的紧密程度,其一是邻域半径,用来描述当前点的邻域距离阈值;其二是点的个数,用来描述在邻域范围内数据点的最小个数。
从原理出发还需要了解几个基本概念:
- 核心对象:对于空间任一点P,如果其邻域内至少包含k个样本点,则P是核心对象;
- 密度直达:如果点Q位于点P的邻域内,且P是核心对象,则Q由P密度直达;
- 密度可达:如果在样本序列中P1,P2,P3