聚类

最新推荐文章于 2023-11-24 11:16:29 发布

原创最新推荐文章于 2023-11-24 11:16:29 发布 · 491 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#模式识别

模式识别专栏收录该内容

5 篇文章

订阅专栏

聚类指标

外部评价指标

Adjusted Rand Index(兰德指标)

R I = N C 与 C * 都 是 同 类 别 的 样 本 对 数 目 + N C 与 C * 都 是 不 同 类 别 的 样 本 对 数 目 C 2 N ( 集 合 中 的 样 本 对 数 目 )

$RI=\frac{N_{C与C^*都是同类别的样本对数目}+N_{C与C^*都是不同类别的样本对数目}}{C_N^2(集合中的样本对数目)}$

为使随机聚类结果的ARI接近0，提出调整兰德系数

A R I = R I - E ( R I ) m a x ( R I ) - E ( R I )

$ARI=\frac{RI-E(RI)}{max(RI)-E(RI)}$

Adjusted Mutual Information(互信息)

信息熵：当随机变量Y的取值确定，即p(y_1)=1，p(y_{i \neq 1}=0)，熵为0。当随机变量的取值不确定，例如在N种取值上的均匀分布， $H(Y)=-\sum^N \frac{1}{N} log \ \frac{1}{N}=log \ N$

H (Y) = - \sum y \in Y p (y i) l o g p (y i) = - \sum y \in Y \sum x \in X p (y i, x i) l o g p (y i) = - \sum x \in X \sum y \in Y p (y i, x i) l o g p (y i)

$\begin{align} H(Y) & = -\sum_{y \in Y} p(y_i)log \ p(y_i)\\ & = -\sum_{y \in Y} \sum_{x \in X} p(y_i,x_i) log \ p(y_i)\\ & = -\sum_{x \in X} \sum_{y \in Y} p(y_i,x_i) log \ p(y_i)\\ \end{align}$
条件熵：在给定条件X下，Y的分布的不确定性

H (Y | X) = \sum x \in X p (x) H (Y | X = x) = - \sum x \in X p (x) \sum y \in Y p ( y i , x i ) p ( x i ) l o g p ( y i , x i ) p ( x i ) = - \sum x \in X \sum y \in Y p (y i, x i) l o g p ( y i , x i ) p ( x i )

$\begin{align} H(Y|X) & = \sum_{x \in X} p(x)H(Y|X=x)\\ & = -\sum_{x \in X} p(x) \sum_{y \in Y} \frac{p(y_i,x_i)}{p(x_i)}log \ \frac{p(y_i,x_i)}{p(x_i)}\\ & = -\sum_{x \in X} \sum_{y \in Y} p(y_i,x_i) log \ \frac{p(y_i,x_i)}{p(x_i)}\\ \end{align}$
聚类结果C和参考类别

C∗ $C^*$ 之间的互信息定义为

M I (C, C *) = H (C) - H (C | C *) = - \sum c * \in C * \sum c \in C p (c, c *) l o g p (c) + \sum c * \in C * \sum c \in C p (c, c *) l o g p ( c , c * ) p ( c * ) = \sum c * \in C * \sum c \in C p (c, c *) l o g p ( c , c * ) p ( c ) p ( c * ) = \sum c \in C \sum c * \in C * p (c, c *) l o g p ( c , c * ) p ( c ) p ( c * ) = - \sum c \in C \sum c * \in C * p (c, c *) l o g p (c *) + \sum c * \in C * \sum c \in C p (c, c *) l o g p ( c , c * ) p ( c ) = H (C *) - H (C * | C)

$\begin{align} MI(C,C^*) & = H(C)-H(C|C^*)\\ & =-\sum_{c^* \in C^*} \sum_{c \in C} p(c,c^*)log \ p(c)+\sum_{c^* \in C^*}\sum_{c \in C} p(c,c^*)log \frac{p(c,c^*)}{p(c^*)}\\ & =\sum_{c^* \in C^*}\sum_{c \in C} p(c,c^*)log \frac{p(c,c^*)}{p(c)p(c^*)}\\ & =\sum_{c \in C}\sum_{c^* \in C^*} p(c,c^*)log \frac{p(c,c^*)}{p(c)p(c^*)}\\ & =-\sum_{c \in C} \sum_{c^* \in C^*} p(c,c^*)log \ p(c^*)+\sum_{c^* \in C^*}\sum_{c \in C} p(c,c^*)log \frac{p(c,c^*)}{p(c)}\\ & =H(C^*)-H(C^*|C)\\ \end{align}$
当

C $C$ 与

C∗ $C^*$ 不相关，

H(C|C∗)=H(C) $H(C|C^*)=H(C)$ ,

MI(C,C∗)=0 $MI(C,C^*)=0$ 。当对于给定

c∗ $c^*$ ，随机变量

C $C$ 只取一类，此时

H(C|C∗)=0 $H(C|C^*)=0$ ，

MI(C,C∗)=H(C) $MI(C,C^*)=H(C)$

同ARI相似，AMI定义为

A M I = M I - E ( M I ) m a x { H ( C ) , H ( C * ) } - E ( M I )

$AMI=\frac{MI-E(MI)}{max\{H(C),H(C^*) \}-E(MI)}$
尽管由于

H(C|C∗)≥0 $H(C|C^*) \geq 0$ ，

H(C∗|C)≥0 $H(C^*|C) \geq 0$ ，因此

m a x (M I) = m i n {H (C), H (C *)}

$max(MI)=min \{H(C),H(C^*) \}$
AMI的取值范围为[0,1]，对两种独立的聚类值为0，两种完全相同的聚类值为1。

homogeneity,completeness and V-measure

homogeneity(同质性)：一个簇只包含一个类别的样本

h = H ( C * ) - H ( C * | C ) H ( C * )

$h=\frac{H(C^*)-H(C^*|C)}{H(C^*)}$

$c_1^*$	$c_2^*$	sum
$c_1$	2
$c_2$	3
$c_3$		6
$c_4$	1
sum	6	6

$H(C^*)=log \ 2$ ， $H(C^*|C)=0$ ， $h=1$

$c_1^*$	$c_2^*$	sum
$c_1$	1	2
$c_2$	2	4
$c_3$	3	6
$c_4$	4	8
sum	10	20

$H(C^*)=\frac{1}{3}log \ 3+\frac{2}{3} log \ \frac{3}{2}$ ， $H(C^*|C)=\frac{1}{3}log \ 3+\frac{2}{3} log \ \frac{3}{2}$ ， $h=0$

completeness(完整性)：一个类别只在一个簇中

c = H ( C ) - H ( C | C * ) H ( C ) = M I ( C , C * ) H ( C )

$c=\frac{H(C)-H(C|C^*)}{H(C)}=\frac{MI(C,C^*)}{H(C)}$

例如对于聚类结果

$c_1^*$	$c_2^*$	$c_3^*$	$c_4^*$	sum
$c_1$	1	3		2
$c_2$			6
sum	1	3	6	2

$H(C)=log \ 2$ ， $H(C|C^*)=0$ ， $c=1$

$c_1^*$	$c_2^*$	$c_3^*$	$c_4^*$	sum
$c_1$	1	2	3	4
$c_2$	2	4	6	8
sum	3	6	9	12

$H(C)=\frac{1}{3}log \ 3+\frac{2}{3} log \ \frac{3}{2}$ ， $H(C|C^*)=\frac{1}{3}log \ 3+\frac{2}{3} log \ \frac{3}{2}$ ， $c=0$

V-measure:均一性和完整性的调和平均

1 v = 1 2 (1 h + 1 c)

$\frac{1}{v}=\frac{1}{2}(\frac{1}{h}+\frac{1}{c})$

Fowlkes-Mallows score

精 度 ： 召 回 率 ： P = T P T P + F P R = T P T P + F N

$\begin{align} 精度：& P=\frac{TP}{TP+FP}\\ 召回率：& R=\frac{TP}{TP+FN}\\ \end{align}$

其中

TP为在聚类结果中属于同一簇，在标签中也属于同一类的样本对数目
FP为在聚类结果中不属于同一簇，在标签中属于同一簇的样本对数目
FN为在聚类结果中属于同一簇，在标签中不属于同一簇的样本对数目

FMI 为精度和召回率的几何均值

F M I = P \times R - - - - - \sqrt

$FMI=\sqrt{P \times R}$

内部评价指标

Silhouette coefficient:轮廓系数

一个样本的轮廓系数定义为：

s = b - a m a x { a , b }

$s=\frac{b-a}{max \{ a,b \} }$

a:The mean distance between a sample and all other points in the same
class.
b:The mean distance between a sample and all other points in the next nearest cluster.

s接近1表示该样本匹配该类非常好，s接近-1表示该样本被聚类到相邻类中更合适，s接近0表示样本在两个类的交集处。

聚类的轮廓系数定义为所有样本轮廓系数的均值。 $\bar{s}>0.5$ 表示聚类合适， $\bar{s}<0.2$ 表示数据不存在聚类特征

Calinski-Harabaz Index:离差平方和

类内散度

W (K) = \sum k = 1 K \sum C (j) = k | | x j - x ¯ k | | 2

$W(K)=\sum_{k=1}^K \sum_{C(j)=k}||x_j-\bar{x}_k||^2$
类间散度

B (K) = \sum k = 1 K N k | | x ¯ k - x ¯ | | 2

$B(K)=\sum_{k=1}^K N_k||\bar{x}_k -\bar{x}||^2$
其中

Nk $N_k$ 代表第

k $k$ 个簇的样本数目。

则CH索引为

C H = B ( K ) ( N - K ) W ( K ) ( K - 1 )

$CH=\frac{B(K)(N-K)}{W(K)(K-1)}$
CH索引的优点在于计算快，它倾向于得到大小均匀的类。

吸引力传播

motivation

算法同时考虑所有样本点作为可能的聚类中心，可以看作是解决了如何选取 $c_i$ 使得能量函数

E (c) = - \sum i = 1 N s (i, c i)

$E(c)=-\sum_{i=1}^N s(i,c_i)$
最小的一个方法。其中

s(i,ci) $s(i,c_i)$ 是样本

i $i$ 与它的聚类中心的相似度（例如：负的欧氏距离）。该问题是NP-hard k-median problem，无法精确求解。

算法描述

输入是样本对之间的相似度矩阵 $s$ ，“Real-valued messages”在样本之间被交换，直到算法收敛，合适的聚类中心被选出。其中“Real-valued messages”包括“responsibility”和“availability”：

$r(i,k)$ ，是 $i$ 传给 $k$ 的，代表 $i$ 有多想选 $k$ 作为自己的代表(对样本 $i$ 来说， $k$ 与自己最相似)
$a(i,k)$ ，是 $k$ 传给 $i$ 的，代表 $k$ 有多想让 $i$ 选自己作为代表(有多少其它样本点想选 $k$ 作为自己的代表)

对于样本 $i$ 来说，如果样本 $k$ 和自己很像，选它作为自己的代表；如果样本 $k$ 和自己不那么像，但是很多别的样本都选它了，那么我也选它作为代表。那么样本 $k$ 就是一个聚类中心了。

算法流程

初始化 $a(i,k)=0$
while 未达到最大迭代次数 or message的改变低于某个阈值 or 近几次（如10次）迭代中根据 $r(i,k)+a(i,k)$ 确定的聚类中心不变
for $k=\{1,2,\dots ,n \}- \{ k|s(k,k)<0\}$
$r(i,k)=s(i,k)-max_{k'\ \neq k} \{ a(i,k')+s(i,k') \}$
$a(i,k)=min \{ 0,r(k,k)+\sum_{i' \notin {i,k}} max \{0,r(i',k)\}\}$
$a(k,k)=\sum_{i' \neq k} max \{ 0,r(i',k) \}$
end
end
return $\{ k|a(k,k)+r(k,k)>0 \}$
在第一次迭代的时候，因为 $a(i,k)=0$ ， $r(i,k)=s(i,k)-max_{k' \neq k} s(i,k')$ ， $r(k,k)=s(k,k)-max_{k' \neq k} s(k,k')$ 。因此 $s(k,k)$ 代表样本 $k$ 作为聚类中心的合适程度，被成为“preference”。当preference选相似度矩阵的中值（s对角线上元素取值相同）时，会获得适当数目的簇；当preference选相似度矩阵的最小值时，会得到小数目的簇。

在接下来的迭代中，某些不是聚类中心的点的 $r(i,k)<0$ ，那么 $a(i,k)<0$ 。不再考虑这些点作为可能的聚类中心来保证迭代算法的效率。

为避免消息传递中的数值震荡，例如如果 $s(1,2)=s(2,1)$ ，并且 $s(1,1)=s(2,2)$ ，那么 $c_1=c_2=1$ 和 $c_1=c_2=2$ 会达到相同的能量，即选样本1还是样本2作为聚类中心都一样，因此会出现这次迭代选1作为聚类中心，下次迭代选2作为聚类中心的现象，从而可能导致算法无法收敛。于是引入阻尼因子（damping factor）：

rt+1(i,k)=λ×rt(i,k)+(1−λ)∗rt+1(i,k)at+1(i,k)=λ×at(i,k)+(1−λ)∗at+1(i,k)

也可以通过给相似度矩阵加入一点噪声来避免震荡。
算法优势
- 不同于K-means依赖于初始聚类中心的选择，只有当初始点离最优点足够近的时候，才能获得最佳结果，吸引力传播不需要初始聚类中心，尽管利用preference作为先验。
- 相似度矩阵不必是对称的，相似性的度量也不需要满足三角不等式[i.e., $s(i,k)<s(i,j)+s(j,k)$ ]，更适合解决实际中的某些问题。例如两个句子之间的相似度度量，从一个城市到另一个城市的交通便利程度的度量。