聚类算法详解-优快云博客

聚类(Clustering)

定义

　　聚类试图将数据中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”(cluster)。通过这样的划分，每个簇可能对应于一些潜在的概念(类别)，如“浅色瓜”“深色瓜”，“有籽瓜”“无籽瓜”，甚至“本地瓜”“外地瓜”等；需要说明的是，这类概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名。
　　聚类既能作为一个单独过程，用于寻找数据内在的分布结构，也可作为分类等其他学习任务的先驱过程。例如，在一些商业应用中需对新用户的类型进行判别，但定义“用户类型”对商家来说却可能不太容易，此时往往可先对用户数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类训练分类模型，用于判别新用户的类型。

性能度量

　　聚类性能度量亦称聚类“有效性指标”(validity index)。与监督学习中的性能度量作用相似，对聚类结果，我们需要通过某种性能度量来评估其好坏；另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。
　　聚类性能度量大致有两类，一类是将聚类结果与某个“参考模型”(reference model)进行比较，成为“外部指标”(external index)；另一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”(internal index)。

定义

　　 $a=|SS|(样本在，结果在)$
　　 $b=|SD|(样本在，结果不在)$
　　 $c=|DS|(样本不在，结果在)$
　　 $d=|DD|(样本不在，结果不在)$
　　
　　下面是一些常用的聚类性能度量外部指标：

Jaccard系数(Jaccard Coefficient，简称JC)

$J C = a a + b + c$ $JC=\frac{a}{a+b+c}$
FM指数(Fowlkes and Mallows Index，简称FMI)

$F M I = a a + b \cdot a a + c ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt$ $FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}}$
Rand指数(Rand Index，简称RI)

$R I = 2 ( a + d ) m ( m - 1 )$ $RI=\frac{2(a+d)}{m(m-1)}$

　　显然上述性能度量的结果值均在[0, 1]之间，值越大说明结果越好。

距离计算

　　给定样本 $x_i=(x_{i1};x_{i2};...;x_{in})$ 与 $x_j=(x_{j1};x_{j2};...;x_{jn})$ ，最常用的是“闵可夫斯基距离”(Minkowski distance)
　　

d i s t m k (x i, x j) = (\sum u = 1 n | x i u - x j u | p) 1 p

$dist_{mk}(x_i,x_j)=(\sum_{u=1}^{n}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$
　　当

p=1p=1 $p=1$ 时，闵可夫斯基距离即曼哈顿距离(Manhattan distance)
　　

d i s t m a n (x i, x j) = | | x i - x j | | 1 = \sum u = 1 n | x i u - x j u |

$dist_{man}(x_i,x_j)=||x_i-x_j||_1=\sum_{u=1}^n|x_{iu}-x_{ju}|$
　　当

p=2p=2 $p=2$ 时，闵可夫斯基距离即欧式距离(Euclidean distance)
　　

d i s t e d (x i, x j) = | | x i - x j | | 2 = \sum u = 1 n | x i u - x j u | 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾  ⎷  

$dist_{ed}(x_i,x_j)=||x_i-x_j||_2=\sqrt{\sum_{u=1}^n|x_{iu}-x_{ju}|^2}$
　　另外当

p−>∞p−>∞ $p->\infty$ 时，得到切比雪夫距离。

原型聚类

k均值算法(k-means)

　　给定样本集 $D=\{x_1,x_2,...,x_m\}$ ，“k均值”算法针对聚类所得簇划分 $C=\{C_1,C_2,...,C_k\}$ 最小化平方误差
　　

E = \sum i = 1 k \sum x \in C i | | x - u i | | 22

$E=\sum_{i=1}^k\sum_{x\in{C_i}}||x-u_i||_2^2$
　　
　　其中

ui=1|Ci|∑x∈Cixui=1|Ci|∑x∈Cix $u_i=\frac{1}{|C_i|}{\sum_{x\in{C_i}}}x$ 是簇

CiCi $C_i$ 的均值向量，直观来看，式子在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，

EE $E$ 值越小则簇内样本相似度越高。
　　

　　这是包含了30个西瓜的西瓜数据集。
　　给出k均值算法的伪代码：
　　

　　给出

k = 3

$k=3$ 时候k-means结果：
　　

学习向量量化(Learning Vector Quantization)

　　与k均值算法类似，“学习向量量化”(LVQ)也是试图找到一组原型向量来刻画聚类结构，但与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程利用样本的这些监督的信息来辅助聚类。
　　给定样本集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，每个样本 $x_j$ 是由 $n$ 个属性描述的特征向量 $(x_{j1};x_{j2};...;x_{jn}),y_j\in{Y}$ 是样本 $x_j$ 的类别标记。LVQ的目标是学得一组 $n$ 维原型向量 $\{p_1,p_2,...,p_q\}$ ，每个原型向量代表一个聚类簇，簇标记为 $t_i\in{Y}$ 。
　　给出学习向量量化的伪代码：
　　

　　显然LVQ关键代码是第6-10行，即如何更新原型向量。直观上看，对样本

xjxj $x_j$ ，若最近的原型向量

pi∗pi∗ $p_{i*}$ 与

xjxj $x_j$ 的标记相同，则令

pi∗pi∗ $p_{i*}$ 向

xjxj $x_j$ 方向靠拢：
　　

p' = p i * + η \cdot (x j - p i *)

$p^{'}=p_{i*}+\eta\cdot(x_j-p_{i*})$
　　此时

p′p′ $p^{'}$ 与

xjxj $x_j$ 之间的距离为:
　　

| | p' - x j | | 2 = (1 - η) \cdot | | p i * - x j | | 2

$||p^{'}-x_j||_2=(1-\eta)\cdot||p_{i*}-x_j||_2$
　　令学习率

η∈(0,1)η∈(0,1) $\eta\in(0,1)$ ，则原型向量

pi∗pi∗ $p_{i*}$ 在更新为

p′p′ $p^{'}$ 之后将更接近

xjxj $x_j$ 。
　　给出

q=5q=5 $q=5$ 时候LVQ结果：
　　

高斯混合聚类

　　与k均值、LVQ用原型向量来刻画聚类结构不同，高斯混合(Mixture-of-Gaussian)聚类采用概率模型来表达聚类原型。
　　给出高斯混合聚类的伪代码：
　　

　　给出

k=3k=3 $k=3$ 时候高斯混合聚类结果：
　　

密度聚类

定义

　　密度聚类亦称为“基于密度的聚类”(density-based clustering)，此类算法假设聚类结构能够通过样本分布的紧密程度确定。通常情况下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

DBSCAN聚类算法

　　DBSCAN是一种著名的密度聚类算法，全称为”Density-Based Spatial Clustering of Applications with Noise”，它基于一组“邻域”(neighborhood)参数( $\epsilon$ , $MinPts$ )来刻画样本分布的紧密程度。给定数据集 $D=\{x_1,x_2,...,x_m\}$ ,定义下面几个概念：

$\epsilon$ -邻域：对 $x_j\in{D}$ ，其 $\epsilon$ -邻域包含样本集 $D$ 中与 $x_j$ 的距离不大于 $\epsilon$ 的样本，即 $N_{\epsilon}(x_j)=\{x_i\in{D}|dist(x_i,x_j)\le\epsilon\}$ ；
核心对象(core object)：若 $x_j$ 的 $\epsilon$ -邻域至少包含 $MinPts$ 个样本，即 $|N_{\epsilon}(x_j)|\ge MinPts$ ，则 $x_j$ 是一个核心对象；
密度直达(directly density-reachable)：若 $x_j$ 位于 $x_i$ 的 $\epsilon$ -邻域中，且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$ 密度直达；
密度可达(density-connected)：对 $x_i$ 与 $x_j$ ，若存在样本序列 $p_1,p_2,...,p_n$ ，其中 $p_1=x_i,p_n=x_j$ 且 $p_{i+1}$ 由 $p_i$ 密度直达，则称 $x_j$ 由 $x_i$ 密度可达；
密度相连(density-connected)：对 $x_i$ 与 $x_j$ ，若存在 $x_k$ 使得 $x_i$ 与 $x_j$ 均有 $x_k$ 密度可达，则称 $x_i$ 与 $x_j$ 密度相连。

　　上图为DBSN定义的基本概念( $MinPts=3$ )：虚线显示出 $\epsilon$ -邻域， $x_1$ 是核心对象， $x_2$ 由密度 $x_1$ 直达， $x_3$ 由 $x_1$ 密度可达， $x_3$ 与 $x_4$ 密度相连。
　　基于这些概念，DBSCAN将“簇”定义为：有密度可达关系导出的最大的密度相连样本集合。
　　给出DBSCAN算法的伪代码：
　　

　　给出DBSCAN算法聚类结果：
　　

　　上图为

(ϵ=0.11,MinPts=5)(ϵ=0.11,MinPts=5) $(\epsilon=0.11,MinPts=5)$ 生成聚类簇的先后情况。核心对象，非核心对象，噪声样本分别用实心圆，空心圆，星号表示，红色虚线框显示出簇划分。

层次聚类

　　层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分，从而形成树形聚类结构，数据集的划分可采用“自底向上”的聚合策略，也可采用“自顶向下”的分拆策略。

AGNES(Hausdorff distance)

　　AGNES是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，该过程不断重复，直至达到预设的聚类簇个数。给定聚类簇 $C_i$ 与 $C_j$ ，可通过下面的式子来计算距离：
　　

最 小 距 离 ： d m i n (C i, C j) = min x \in C i, z \in C j d i s t (x, z)

$最小距离：d_{min}(C_i,C_j)=\min_{x\in{C_i},z\in{C_j}}dist(x,z)$

最 大 距 离 ： d m a x (C i, C j) = max x \in C i, z \in C j d i s t (x, z)

$最大距离：d_{max}(C_i,C_j)=\max_{x\in C_i,z\in C_j}dist(x,z)$

平 均 距 离 d a v g (C i, C j) = 1 | C i | | C j | \sum x \in C i \sum z \in C j d i s t (x, z)

$平均距离d_{avg}(C_i,C_j)=\frac{1}{|C_i||C_j|}\sum_{x\in C_i}\sum_{z\in C_j}dist(x,z)$

　　当聚类簇距离由 $d_{min}$ 、 $d_{max}$ 或 $d_{avg}$ 计算时AGNES算法被相应称为“单链接”(single-linkage)、“全链接”(complete-linkage)或“均链接”(average-linkage)算法。
　　下面是AGNES算法的示意图：