【Estimation of the Number of Clusters】G-means: Learning the k in k-means in NIPS 2003 个人理解

原创已于 2023-06-05 19:16:57 修改 · 250 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#kmeans #聚类

于 2023-06-05 15:45:24 首次发布

Estimation Cluster Number 专栏收录该内容

5 篇文章

订阅专栏

G-means是一种针对无标签数据的聚类算法，它基于k-means并假设每个簇遵循同一高斯分布。算法从预设的最小类别数开始，通过k-means分裂簇并使用Anderson-Darling检验判断是否应继续分割。如果数据不满足同一高斯分布假设，则增加类别数。该过程重复直到所有检验都不支持进一步分割。

一、简介

题目： Learning the $k$ in $k$ -means
会议： NIPS 2003
任务： 估计无标签数据的类别数量并聚类。
Idea： 假设一个簇的数据服从同一个高斯分布，给定预估的类别数下界，从下界开始做一次 $k$ -means，再对每个簇进行 $k$ -means（ $k = 2$ ）得到两个簇中心，连接两个簇中心得投影向量，计算该簇所有样本在投影向量上的投影并将投影归一化，之后通过Anderson-Darling检验判断 $k$ 应该等于2还是1，如此往复直至所有检验都不接受进一步的分割。
G-means
如图，为G-means的算法流程，下节做详细介绍。

二、详情

1. 算法步骤

输入：无标签数据 $D$ ，预估类别数下界限 $K_{\min}$ 。
输出：预测的类别数量和聚类结果。
（1）初始化 $k_{new}=K_{\min}，\alpha=0.0001$ ；
（2）设定 $k=k_{new}$ ，执行一次 $k$ -means，形成 $k_{new}$ 个簇；
（3）对于每个簇，初始化两个中心（初始化方法见下节）并在此基础上执行 $k$ -means（ $k = 2$ ）；
（4）每个簇都被分割为2个新簇并得到两个新的簇中心 $c_1$ 和 $c_2$ ，连接它们得各簇的投影向量 $v=c_1-c_2$ ；
（5）计算各簇数据在各自投影向量上的投影 $x_i^\prime=\langle x_i,v\rangle/\|v\|^2$ 并将投影归一化（均值为0，方差为1）为 $x_i^\prime$ ；
（6）分别对各簇的 $x_i^\prime$ 进行排序得 $x^\prime_{(i)}$ ，令 $z_i=F(x_{(i)}^\prime)$ ， $F$ 为 $N (0, 1)$ 的分布函数（Cumulative Distribution Function, CDF）;
（7）进行Anderson-Darling检验，计算各簇的 $A_*^2(Z)$ ，公式如下：
$A_*^2(Z)=A^2(Z)(1+4/n-25/n^2)$ 其中，
$A^2(Z)=-\frac{1}{n}\sum_{i=1}^n(2i-1)[\log(z_i)+\log(1-z_{n+1-i})]-n$ 对于一个簇来说，如果 $A_*^2(Z)$ 大于 $\alpha=0.0001$ 时的临界值，则拒绝 $H_0$ ：数据来自同一个高斯，即认为数据并非来自同一个高斯分布，于是 $k_{new}=k_{new}+1$ ；否则，接受 $H_0$ ，保持原簇不变；
（8）如果（7）中 $k_{new}$ 没有增加则算法终止；否则，转（2）。

2. 初始化簇中心

假设原簇中心为 $c$ ，如果要将原簇分割为两个新簇，首先要初始化两个新簇的中心，记为 $c\pm m$ 。关于 $m$ ，作者给出两个做法：
（1）与 $c$ 尺度相同的随机向量，并且 $\|m\|$ 不能过大导致数据失真；
（2） $m=s\sqrt{2\lambda/\pi}$ ， $s$ 为主成分， $\lambda$ 为对应的特征值。因为 $m$ 应该与 $c$ 同维度，有理由认为这里的 $s$ 是不做降维的主成分。