聚类分析与半监督学习中的特殊现象研究
1. 聚类模型的比较方法
在聚类分析中,有多种方法可用于比较不同聚类结果的相似性。主要有原型相似性、划分相似性和直接从模型概率密度函数推导聚类相似性这三种方法。
-
原型相似性与划分相似性 :这两种方法可能会给出不同的映射,但最终的聚类指数(CI)值大多相同。从表 1 可以看到使用原型和划分相似性计算 CI 的处理时间,以及它们给出不同 CI 值的次数。
| 数据集 | S1 | S2 | S3 | S4 | Birch2 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 原型 | 15 ms | 15 ms | 15 ms | 15 ms | 120 ms |
| 划分 | 14 ms | 14 ms | 14 ms | 14 ms | 250 ms |
| 不同 CI 值比例 | 5.8 % | 7.1 % | 5.2 % | 7.9 % | 30 % | -
高斯混合模型(GMM)的相似性 :GMM 通过质心和协方差矩阵来表示每个聚类,这会使模型大小从每个聚类 O(1) 增加到 O(d²)。由于通常没有足够的数据来可靠地估计协方差,因此采用简化变体,只考虑协方差矩阵的对角线,将模型大小降至 O(d)。
- 优化算法 :期望最大化(EM)算法类似于 k - means 对 GMM 进行优化,它交替迭代期望和最大化步骤以优化对数似然,但也会陷入局部最优。更好的变
超级会员免费看
订阅专栏 解锁全文
2299

被折叠的 条评论
为什么被折叠?



