数据聚类与光谱解混算法研究
1. 非参数混合模型聚类
非参数混合模型(NMM)用于数据聚类,是一种概率模型,通过为每个聚类拟合核密度估计来对数据进行聚类。
1.1 合成数据集表现
- “双月”数据集 :该数据集不适合高斯混合模型(GMM)。NMM算法能够恢复潜在的聚类,并估计相关的条件密度,而GMM则无法做到。
- 特定数据集 :对于谱聚类困难的数据集,K - means和谱聚类由于球形聚类方差的差异而无法恢复聚类。但NMM算法是纯局部的,点的聚类标签仅受相邻点的聚类标签影响,能近乎完美地恢复聚类,并估计聚类条件密度。
1.2 文本数据集表现
使用八个高维文本数据集验证算法效果,结果如下表所示:
| Dataset | n | d | G | Proposed | K - means | NJW - Spec | Linkage max(S,C,A) |
| — | — | — | — | — | — | — | — |
| cmu - different - 1000 | 2975 | 7657 | 3 | 95.86 | 87.74 | 94.37 | 40.31 |
| cmu - similar - 1000 | 2789 | 6665 | 3 | 67.04 | 49.86 | 45.16 | 37.28 |
| cmu - same - 1000 | 2906 | 4248 | 3 | 73.79 | 49.40 | 48.04 | 30.01 |
超级会员免费看
订阅专栏 解锁全文
48

被折叠的 条评论
为什么被折叠?



