聚类算法全解析:从模糊聚类到谱聚类
1. 引言
聚类分析是数据挖掘和机器学习领域中的重要技术,它能够将数据集中的相似数据点归为一类。本文将深入探讨多种聚类算法,包括模糊 c - 均值算法、可能性 c - 均值算法、竞争泄漏学习算法、谷搜索聚类算法和谱聚类算法,详细介绍它们的原理、应用及特点。
2. 非硬聚类算法
2.1 模糊 c - 均值算法(FCM)
模糊 c - 均值算法(FCM)是一种流行的非硬聚类算法,它假设每个数据向量可以在一定程度上同时属于多个聚类。
2.1.1 算法原理
在 FCM 中,每个紧凑聚类由参数向量 $\theta_j$ 表示($j = 1, \cdots, m$)。数据向量 $x_i$ 属于聚类 $C_j$ 的隶属度由 $u_{ij}$ 量化,且满足 $u_{ij} \in [0, 1]$ 和 $\sum_{j = 1}^{m} u_{ij} = 1$。算法的目标是将参数向量 $\theta_j$ 移动到数据空间中数据点密集的区域。
FCM 是迭代算法,具体步骤如下:
1. 初始化参数向量 $\theta_1(0), \cdots, \theta_m(0)$。
2. 在每次迭代 $t$ 中:
- 计算数据向量 $x_i$ 在聚类 $C_j$ 中的隶属度 $u_{ij}(t - 1)$,考虑 $x_i$ 到所有 $\theta_j$ 的(平方欧几里得)距离。
- 更新代表向量 $\theta_j$ 为所有数据向量的加权均值,每个数据向量 $x_i$ 的权重为 $u_{ij}^q(t - 1)$。
3. 当连续两次迭代
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



