聚类算法在MNIST和贷款数据中的应用分析
1. DBSCAN算法介绍
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法,它能够将具有足够密度的区域划分为簇,并将低密度区域中的点标记为噪声点。与其他聚类算法相比,DBSCAN有两个显著优势:一是可以明确地将点标记为离群点,避免对其进行聚类,从而减少离群点对聚类结果的影响;二是不需要预先指定聚类的数量。
1.1 DBSCAN算法参数
在使用Scikit - Learn库中的DBSCAN时,需要指定两个重要参数:
- eps :两个点被视为在同一邻域内的最大距离。默认值为0.5。如果eps设置过低,可能没有足够接近的点形成邻域,导致所有点都无法聚类;如果设置过高,许多点会被聚为一类,只有少数点被标记为离群点。
- min_samples :一个组被称为簇所需的最小样本数。默认值为5。当某个区域内的点数达到min_samples时,这些点成为核心点,与核心点距离在eps内的其他点也会被归入该簇,即使这些点周围的点数不足min_samples,它们被称为边界点。一般来说,随着min_samples的增加,聚类的数量会减少。
1.2 在MNIST数据集上应用DBSCAN
以下是在PCA降维后的MNIST数字数据集的前一百个主成分上应用DBSCAN的代码:
from sklearn.cluster impor
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



