DBSCAN文本聚类与python实现

最新推荐文章于 2024-08-13 14:49:06 发布

林ch

最新推荐文章于 2024-08-13 14:49:06 发布

阅读量1w

点赞数 13

分类专栏：聚类

本文链接：https://blog.youkuaiyun.com/linchuhai/article/details/88526476

版权

聚类算法作为分类任务中的无监督方法，在很多场景中都会用到，比如用户聚类、文档主题分类等等。常见的聚类算法大致可以分为两种，一种是基于分区的算法，如k-means等，这种方法虽然易于理解，但是有以下三个缺点：

另一种是基于层次划分的算法，如层次聚类法等，这种方法虽然不用事先确定聚类的个数，但是也存在以下缺点：

因此，本文介绍另一个聚类算法——DBSCAN，该方法是基于密度的聚类方法，能够有效解决上面提到的各种问题。

DBSCAN是一种基于密度的聚类算法，其基本假设是一个集群的密度要显著高于噪声点的密度，因此，该方法的基本思想是对于集群中的每一个点，在给定的半径范围内，其相邻点的数量必须超过预先设定的某一个阈值。
在介绍DBSCAN算法之前，先介绍几个基本的概念：

Eps领域（Eps-neighborhood） ：对于一个点，记其Eps领域为 $\mathrm{N}_{\mathrm{Eps}}(\mathrm{p})$ ，则其定义如下：
$\mathrm{N}_{\mathrm{Eps}}(\mathrm{p})=\{\mathrm{q} \in D | \operatorname{dist}(\mathrm{p}, \mathrm{q}) \leq \mathrm{Eps}\}$
其中， $D$ 表示整个数据集集合， $\operatorname{dist}(p, q)$ 表示点 $p$ 和 $q$ 的距离。
直接密度可达（directly density-reachable）：称一个点 $p$ 直接密度可达点 $q$ ，如果满足以下条件：
$\mathrm{p} \in \mathrm{N}_{\mathrm{Eps}}(\mathrm{q}) \\ \left|\mathrm{N}_{\mathrm{Eps}}(\mathrm{q})\right| \geq \mathrm{MinPts}$
其中，MinPts表示一个中心点的Eps领域必须包含的最小数量，需要事先确定。当点 $p$ 和 $q$ 都是一个集群的中心点时，则此时直接密度可达对两个点来说都是对称的，当时当 $p$ 是边界点时，则此时直接密度可达不是对称的，如下图所示。
密度可达（density-reachable）：如果存在一串点 $\mathrm{p}_{1}, \dots, \mathrm{p}_{\mathrm{n}}, \mathrm{p}_{1}=\mathrm{q}, \mathrm{p}_{\mathrm{n}}=\mathrm{p}$ ，有 $\mathrm{p}_{\mathrm{i+1}}$ 从 $\mathrm{p}_{\mathrm{i}}$ 直接密度可达，那么就称 $p$ 从 $q$ 密度可达。
密度相连（density-connected）：如果存在一个点