9.1聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为"簇"。
假定样本集 D = x 1 , x 2 , . . . x m D={x_1,x_2,...x_m} D=x1,x2,...xm包含 m m m个无标记样本
每个样本 x i = ( x i 1 , x i 2 , . . . x i n ) x_i=(x_{i1},x_{i2},...x_{in}) xi=(xi1,xi2,...xin)是一个 n n n维向量
聚类将样本集 D D D划分维 k k k个不相交的簇 { C l ∣ l = 1 , 2 , . . k } \{C_l|l=1,2,..k\} { Cl∣l=1,2,..k}
9.2性能度量
亦称聚类“有效性指标”(validity index)
聚类结果与“簇内相似度”高且“簇间相似度”低
性能度量大致两类 { 与“参考模型”比,“外部指标” 直接考虑结果,“内部指标” 性能度量大致两类 \begin{cases} 与“参考模型”比,“外部指标” &\\ 直接考虑结果,“内部指标” & \\ \end{cases} 性能度量大致两类{
与“参考模型”比,“外部指标”直接考虑结果,“内部指标”
对数据集 D = { x 1 , x 2 , . . . x m } D=\{x_1,x_2,...x_m\} D={ x1,x2,...xm}
聚类给出的簇划分 C = { C 1 , C 2 , . . . , C k } C=\{C_1,C_2,...,C_k\} C={ C1,C2,...,Ck}
参考模型给的簇划分 C ∗ = { C 1 ∗ , C 2 ∗ , . . . , C k ∗ } C^*=\{C_1^*,C_2^*,...,C_k^*\} C∗={ C1∗,C2∗,...,Ck∗}
同时令 λ \lambda λ与 λ ∗ \lambda^* λ∗分布表示 C C C与 C ∗ C^* C∗对应的簇标记向量
其中, a + b + c + d = C m 2 = m ( m − 1 ) 2 a+b+c+d=C_m^2=\frac{m(m-1)}{2} a+b+c+d=Cm2=2m(m−1)
聚类性能度量外部指标:
9.3距离计算
对函数 d i s t ( ⋅ , ⋅ ) dist(\cdot,\cdot) dist(⋅,⋅),若它是一个“距离度量”(distance measure),则需满足一些基本性质:
- 非负性: d i s t ( x i , x j ) ≥ 0 ; dist(x_i,x_j)\geq0; dist(xi,xj)≥0;
- 同一性: d i s t ( x i , x j ) = 0 ; dist(x_i,x_j)=0; dist(xi,xj)=0;当且仅当 x i = x j ; x_i=x_j; xi=xj;
- 对称性: d i s t ( x i , x j ) = d i s t ( x j , x i ) ; dist(x_i,x_j)=dist(x_j,x_i); dist(xi,xj)=dist(xj,xi);
- 直递性: d i s t ( x i , x j ) ≤ d i s t ( x i , x k ) + d i s t ( x k , x j ) dist(x_i,x_j)\leq{dist(x_i,x_k)+dist(x_k,x_j)} dist(xi,xj)≤dist(xi,xk)+dist(xk,xj)
给定样本 x i = ( x i 1 ; x i 2 ; . . . ; x i n ) x_i=(x_{i1};x_{i2};...;x_{in}) xi=(xi1;xi2;...;xin)与 x j = ( x j 1 ; x j 2 ; . . . ; x j n ) x_j=(x_{j1};x_{j2};...;x_{jn}) xj=(xj1;xj2;...;xjn),最常用的是“闵可夫斯基距离”(Minkoski distance)
d i s t m k ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p \begin{equation} dist_{mk}(x_i,x_j)=(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}} \tag{9.18} \end{equation} distmk(xi,xj)=(u=1∑n∣xiu−x