第九章 聚类

本文探讨了无监督学习中的聚类技术,包括K-means、LVQ、高斯混合模型及DBSCAN等算法原理与实现步骤。介绍了聚类任务的目标、性能度量方法以及常用的相似度计算方式。

9.1 聚类任务

终于来到“无监督学习”。聚类的训练样本标记是未知的,试图将数据集的样本划分为若干个不相交的子集,每个子集叫一个“簇”。聚类过程自动形成“簇”,至于“簇”的意义由你决定。

9.2性能度量

我们希望的是聚类结果“簇内相似度”高,而“簇间相似度”低。

“外部指标”:Jaccard系数 FM指数 Rand指数

内部指标:DB指数 Dunn指数


9.3距离计算

即函数dist(.,.),若是一个“距离度量”,则满足:非负性、同一性、对称性和直递性。

常用的是“闵可夫斯基距离”、欧式距离、曼哈顿距离。

这些距离适合计算有序属性的距离,至于”无序属性“,一般用VDM距离。


注意存在非度量距离。


9.4 原型聚类

理解什么叫原型聚类:算法先对一组原型进行初始化,然后对原型进行迭代更新求解。采用不同原型表示,则不同算法。

1、K-means算法

即k均值算法。给定数据集D={x1,x2,…,xm},"k均值“算法针对聚类所得簇划分C={C1,C2,…,Ck}最小化平方误差:



其中是簇Ci的均值向量。E越小,簇内样本相似度越高 。

K-means算法:



2、学习向量量化(LVQ)

也是试图找一组原型向量刻画聚类结构,但是数据样本带标记,是监督学习。

算法:



其中6-9行意思是对样本xj,如果最靠近它的原型向量pi*和它标记一致,则让pi*向xj靠拢,否则远离。


3、高斯混合聚类

采用概率模型来刻画聚类原型

先看高斯分布概率密度函数:


n是向量x的维数。u是均值向量,是n*n协方差矩阵。

高斯混合分布:


即假设样本是由高斯混合分布给出的,αi是混合系数。:首先根据α1,α2……的先验分布选择高斯混合分布,然后根据被选择的混合成分的概率密度函数采样,生成样本。



给出样本xj由第i个高斯混合成分生成的后验概率,将其记成

当高斯混合分布已知时,每个样本xj的簇标记这么确定:


那模型参数如何求解?即.极大似然法估计是个不错的主意:



分别对各参数求导为0,可解出个参数:

,从而:


得到:



同理,,可得:



最后求αi,它还有要求是:,写成拉格朗日形式:


求导得:



这是EM算法的套路:

每步迭代中,先根据当前参数求得每个样本属于每个高斯成分的后验概率,这是E步;在由后验概率用前面的参数计算式更新模型参数,这是M步、

具体如下:



9.5 密度聚类(DBSCAN)

先摆几个概念:



核心对象  密度直达  密度可达  密度相连 


用一个图直观显示这些概念:



算法规定形成的“簇”要满足连接性和最大性两个要求。

具体算法:



评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值