机器学习第九章-聚类

目录

9.1聚类任务

9.2性能度量

9.3距离计算

9.4圆形聚类

9.4.1k均值算法

9.4.2学习向量量化法(LVQ)

9.4.3高斯混合聚类

9.5密度聚类

 9.6层次聚类


9.1聚类任务

        在"无监督学习"中研究最多、应用最广的是"聚类" .聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个"簇" .聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。聚类的结果可用包含m个元素的簇标记向量 λ=(λ1;λ2;... ;λm) 表示.

9.2性能度量

        聚类性能度量亦称聚类"有效性指标"聚类性能度量大致有两类. 一类是将聚类结果与某个"参考模型" 进行比较,称为"外部指标" ; 另一类是直接考察聚类结果而不利用任何参考模型,称为"内部指标" 。

        聚类性能度量外部指标有如下:

Jaccard 系数(计算聚类结果与参考模型之间的交集与并集的比值)   JC=\frac{a}{a+b+c}
FM 指数(计算聚类结果与参考模型之间的精确度和召回率的调和平均数) :                                                                        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        FMI=\sqrt{\frac{a}{a+b}*\frac{a}{a+b}}
Rand 指数(计算聚类结果与参考模型之间的一致决策和不一致决策的比值)   RI=\frac{2(a+b)}{m(m-1)}
上述性能度量的结果值均在 [0 1] 区间,值越大越好.
         聚类性能度量内部指标有如下:
DB 指数 (通过衡量各个簇的紧密度和分离度来评估聚类的效果): 
        ​​​​​​​        ​​​​​​​        ​​​​​​​         \mathrm{DBI}=\frac{1}{k} \sum_{i=1}^{k} \max _{j \neq i}\left(\frac{\operatorname{avg}\left(C_{i}\right)+\operatorname{avg}\left(C_{j}\right)}{d_{\text {cen }}\left(\boldsymbol{\mu}_{i}, \boldsymbol{\mu}_{j}\right)}\right)
Du nn 指数(通过比较簇内的紧密度和簇间的分离度来评估聚类的质量):
        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​   \mathrm{DI}=\min _{1 \leqslant i \leqslant k}\left\{\min _{j \neq i}\left(\frac{d_{\min }\left(C_{i}, C_{j}\right)}{\max _{1 \leqslant l \leqslant k} \operatorname{diam}\left(C_{l}\right)}\right)\right\}
DBI 的值越小越好,而 DI 则相反,值越大越好.

9.3距离计算

        对函数 dist(. ,.),若它是一个"距离度量" (distance measure) ,则需满足一 些基本性质:

        非负性: dist(Xi , Xj) >=   0 ;
        同一性: dist(Xi , Xj)=0当且仅当 Xi = Xj ;
        对称性: dist(Xi , Xj)) = dist(xj , Xi) ;
        直递性: dist(Xi , Xj) <=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值