15、无监督机器学习算法:聚类、降维与关联规则挖掘

无监督机器学习算法:聚类、降维与关联规则挖掘

1. 层次聚类与 DBSCAN 算法

层次聚类在数据未明确显示最优聚类数量时非常有用,它还能提供树状图,有助于可视化数据的嵌套分组和理解层次结构。不过,它的计算量比 k - means 更大,不太适合处理大型数据集。

DBSCAN(基于密度的带噪声空间聚类应用)是一种无监督学习技术,基于数据点的密度进行聚类。其基本思想是将高密度空间中的数据点聚集在一起,以实现有意义的聚类。这种聚类方法有两个重要特点:
- 算法能够将存在于一起的数据点聚类,而不考虑它们的形状或模式,有助于创建任意形状的聚类,这对于处理复杂的非线性现实数据非常有利。
- 与 k - means 算法不同,无需指定聚类的数量,算法可以自动检测数据中合适的分组数量。

DBSCAN 算法的步骤如下:
1. 建立邻域 :为每个数据点建立一个邻域,通过计算在距离 eps 内的数据点数量来确定。eps 表示两个数据点被视为在同一邻域内的最大距离,默认使用欧几里得距离度量。
2. 量化密度 :使用变量 min_samples 来量化每个数据点的密度。如果一个数据点在 eps 距离内有至少 min_samples 个其他数据点,则该数据点被视为“核心实例”。
3. 确定聚类 :每个确定的邻域对应一个聚类。一个核心实例的邻域可能包含其他核心实例,因此核心实例可以对多个聚类的形成做出贡献,导致聚类边界可能重叠,形成复杂的相互连接的聚类结构。
4. 识别离群点 :任何不是核心实例且不在核心实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值