6、聚类与降维:DBSCAN 与主成分分析全解析

聚类与降维:DBSCAN 与主成分分析全解析

1. DBSCAN 算法入门

在使用 scikit-learn 中封装好的 DBSCAN 实现之前,深入理解其工作原理至关重要。这有助于我们真正掌握该算法,并在未来深入探讨其应用。

1.1 DBSCAN 的核心参数:最小点数

除了邻域半径,成功实现 DBSCAN 的另一个核心组件是确定簇成员资格所需的最小点数。在稀疏数据集的情况下,这个下限参数的作用尤为明显。不过,即使是在密集数据中,该参数也并非无用。例如,当特征空间中随机分布着少量孤立的数据点时,它们很容易被归为噪声;但当出现两到三个数据点组成的小区域时,这些点是应该自成一个簇,还是也被归类为噪声就变得模糊了。最小点数阈值的设定有助于解决这个问题。

在 scikit-learn 的 DBSCAN 实现中,这个超参数通过 min_samples 字段设置。它与邻域半径大小超参数密切相关,共同完善基于密度的聚类方法。

在实际场景中,当处理大量数据时,最小点数的影响会更加显著。以葡萄酒聚类为例,如果是一个大型葡萄酒仓库,可能有成千上万瓶葡萄酒,其中只有一两瓶可能会被视为一个独立的簇。这取决于具体的应用场景,但需要注意数据本身的规模。如果有上百万个数据点,那么几百甚至上千个随机的一次性销售数据可能被视为噪声;而如果数据规模在几百到几千之间,单个数据点就可能被视为噪声。

1.2 练习 10:评估最小点数阈值的影响

类似于之前评估邻域半径大小影响的练习,这次我们将在不同数据集上改变最小点数阈值,以评估其对聚类结果的影响。

以下是具体步骤:
1. <

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值