《机器学习》周志华-CH9(聚类)

9.1聚类任务

  聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为"簇"。

  假定样本集 D = x 1 , x 2 , . . . x m D={x_1,x_2,...x_m} D=x1,x2,...xm包含 m m m个无标记样本

  每个样本 x i = ( x i 1 , x i 2 , . . . x i n ) x_i=(x_{i1},x_{i2},...x_{in}) xi=(xi1,xi2,...xin)是一个 n n n维向量

  聚类将样本集 D D D划分维 k k k个不相交的簇 { C l ∣ l = 1 , 2 , . . k } \{C_l|l=1,2,..k\} { Cll=1,2,..k}

在这里插入图片描述

9.2性能度量

  亦称聚类“有效性指标”(validity index)

  聚类结果与“簇内相似度”高且“簇间相似度”低
性能度量大致两类 { 与“参考模型”比,“外部指标” 直接考虑结果,“内部指标” 性能度量大致两类 \begin{cases} 与“参考模型”比,“外部指标” &\\ 直接考虑结果,“内部指标” & \\ \end{cases} 性能度量大致两类{ 参考模型比,外部指标直接考虑结果,内部指标

  对数据集 D = { x 1 , x 2 , . . . x m } D=\{x_1,x_2,...x_m\} D={ x1,x2,...xm}

  聚类给出的簇划分 C = { C 1 , C 2 , . . . , C k } C=\{C_1,C_2,...,C_k\} C={ C1,C2,...,Ck}

  参考模型给的簇划分 C ∗ = { C 1 ∗ , C 2 ∗ , . . . , C k ∗ } C^*=\{C_1^*,C_2^*,...,C_k^*\} C={ C1,C2,...,Ck}

  同时令 λ \lambda λ λ ∗ \lambda^* λ分布表示 C C C C ∗ C^* C对应的簇标记向量
在这里插入图片描述

  其中, a + b + c + d = C m 2 = m ( m − 1 ) 2 a+b+c+d=C_m^2=\frac{m(m-1)}{2} a+b+c+d=Cm2=2m(m1)

  聚类性能度量外部指标:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

9.3距离计算

  对函数 d i s t ( ⋅ , ⋅ ) dist(\cdot,\cdot) dist(,),若它是一个“距离度量”(distance measure),则需满足一些基本性质:

  • 非负性: d i s t ( x i , x j ) ≥ 0 ; dist(x_i,x_j)\geq0; dist(xi,xj)0;
  • 同一性: d i s t ( x i , x j ) = 0 ; dist(x_i,x_j)=0; dist(xi,xj)=0;当且仅当 x i = x j ; x_i=x_j; xi=xj;
  • 对称性: d i s t ( x i , x j ) = d i s t ( x j , x i ) ; dist(x_i,x_j)=dist(x_j,x_i); dist(xi,xj)=dist(xj,xi);
  • 直递性: d i s t ( x i , x j ) ≤ d i s t ( x i , x k ) + d i s t ( x k , x j ) dist(x_i,x_j)\leq{dist(x_i,x_k)+dist(x_k,x_j)} dist(xi,xj)dist(xi,xk)+dist(xk,xj)

  给定样本 x i = ( x i 1 ; x i 2 ; . . . ; x i n ) x_i=(x_{i1};x_{i2};...;x_{in}) xi=(xi1;xi2;...;xin) x j = ( x j 1 ; x j 2 ; . . . ; x j n ) x_j=(x_{j1};x_{j2};...;x_{jn}) xj=(xj1;xj2;...;xjn),最常用的是“闵可夫斯基距离”(Minkoski distance)
d i s t m k ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p \begin{equation} dist_{mk}(x_i,x_j)=(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}} \tag{9.18} \end{equation} distmk(xi,xj)=(u=1nxiux

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Next---YOLO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值