12、聚类算法在MNIST和贷款数据中的应用分析

聚类算法在MNIST和贷款数据中的应用分析

1. DBSCAN算法介绍

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法,它能够将具有足够密度的区域划分为簇,并将低密度区域中的点标记为噪声点。与其他聚类算法相比,DBSCAN有两个显著优势:一是可以明确地将点标记为离群点,避免对其进行聚类,从而减少离群点对聚类结果的影响;二是不需要预先指定聚类的数量。

1.1 DBSCAN算法参数

在使用Scikit - Learn库中的DBSCAN时,需要指定两个重要参数:
- eps :两个点被视为在同一邻域内的最大距离。默认值为0.5。如果eps设置过低,可能没有足够接近的点形成邻域,导致所有点都无法聚类;如果设置过高,许多点会被聚为一类,只有少数点被标记为离群点。
- min_samples :一个组被称为簇所需的最小样本数。默认值为5。当某个区域内的点数达到min_samples时,这些点成为核心点,与核心点距离在eps内的其他点也会被归入该簇,即使这些点周围的点数不足min_samples,它们被称为边界点。一般来说,随着min_samples的增加,聚类的数量会减少。

1.2 在MNIST数据集上应用DBSCAN

以下是在PCA降维后的MNIST数字数据集的前一百个主成分上应用DBSCAN的代码:

from sklearn.cluster impor
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值