无监督机器学习算法:聚类、降维与关联规则挖掘
1. 层次聚类与 DBSCAN 算法
层次聚类在数据未明确显示最优聚类数量时非常有用,它还能提供树状图,有助于可视化数据的嵌套分组和理解层次结构。不过,它的计算量比 k - means 更大,不太适合处理大型数据集。
DBSCAN(基于密度的带噪声空间聚类应用)是一种无监督学习技术,基于数据点的密度进行聚类。其基本思想是将高密度空间中的数据点聚集在一起,以实现有意义的聚类。这种聚类方法有两个重要特点:
- 算法能够将存在于一起的数据点聚类,而不考虑它们的形状或模式,有助于创建任意形状的聚类,这对于处理复杂的非线性现实数据非常有利。
- 与 k - means 算法不同,无需指定聚类的数量,算法可以自动检测数据中合适的分组数量。
DBSCAN 算法的步骤如下:
1. 建立邻域 :为每个数据点建立一个邻域,通过计算在距离 eps 内的数据点数量来确定。eps 表示两个数据点被视为在同一邻域内的最大距离,默认使用欧几里得距离度量。
2. 量化密度 :使用变量 min_samples 来量化每个数据点的密度。如果一个数据点在 eps 距离内有至少 min_samples 个其他数据点,则该数据点被视为“核心实例”。
3. 确定聚类 :每个确定的邻域对应一个聚类。一个核心实例的邻域可能包含其他核心实例,因此核心实例可以对多个聚类的形成做出贡献,导致聚类边界可能重叠,形成复杂的相互连接的聚类结构。
4. 识别离群点 :任何不是核心实例且不在核心实
超级会员免费看
订阅专栏 解锁全文

117

被折叠的 条评论
为什么被折叠?



