一、简介
题目: PG-means: learning the number of clusters in data
会议: NIPS 2006
任务: 估计无标签数据的类别数量 k k k并聚类。
Idea: 最初给定一个较小的 k k k(最小为1)在原始无标签数据上拟合高斯混合模型(gaussian mixture model, GMM);将无标签数据和GMM的参数(均值、斜方差)映射为一维,然后基于映射后的GMM参数进行采样;之后使用Kolmogorov-Smirnov (KS) test检验映射后的数据和采样是否匹配,若匹配,则迭代终止,否则,令 k = k + 1 k\!=\!k\!+\!1 k=k+1更新GMM并陆续进行映射、采样、检验。
Code: GitHub
Note: 虽然该方法叫PG-means,但与X-means和G-means基于 k k k-means不同,它是基于GMM的。

如图,为PG-means的算法流程,下节做详细介绍。
二、详情
1. 算法步骤
输入:无标签数据 { X } d × n \{\pmb X\}_{d\times n} {
X}d×n( n n n是样本数, d d d是样本维度),置信阈值 α \alpha α,映射次数 p p p。
输出:预测的类别数量和聚类结果。
(1)初始化 k = 1 k=1 k=1;
(2)在 X \pmb X X上根据 k k k拟合GMM,GMM中有 k k k个均值 { μ } d × 1 \{\pmb\mu\}_{d\times 1}

最低0.47元/天 解锁文章
1087





