第九章聚类

最新推荐文章于 2022-08-10 09:48:04 发布

原创最新推荐文章于 2022-08-10 09:48:04 发布 · 382 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

16 篇文章

订阅专栏

本文探讨了无监督学习中的聚类技术，包括K-means、LVQ、高斯混合模型及DBSCAN等算法原理与实现步骤。介绍了聚类任务的目标、性能度量方法以及常用的相似度计算方式。

9.1 聚类任务

终于来到“无监督学习”。聚类的训练样本标记是未知的，试图将数据集的样本划分为若干个不相交的子集，每个子集叫一个“簇”。聚类过程自动形成“簇”，至于“簇”的意义由你决定。

9.2性能度量

我们希望的是聚类结果“簇内相似度”高，而“簇间相似度”低。

“外部指标”：Jaccard系数 FM指数 Rand指数

内部指标：DB指数 Dunn指数

9.3距离计算

即函数dist(.,.)，若是一个“距离度量”，则满足：非负性、同一性、对称性和直递性。

常用的是“闵可夫斯基距离”、欧式距离、曼哈顿距离。

这些距离适合计算有序属性的距离，至于”无序属性“，一般用VDM距离。

注意存在非度量距离。

9.4 原型聚类

理解什么叫原型聚类：算法先对一组原型进行初始化，然后对原型进行迭代更新求解。采用不同原型表示，则不同算法。

1、K-means算法

即k均值算法。给定数据集D={x1,x2,…,xm},"k均值“算法针对聚类所得簇划分C={C1,C2,…,Ck}最小化平方误差：

其中是簇Ci的均值向量。E越小，簇内样本相似度越高。

K-means算法：

2、学习向量量化(LVQ)

也是试图找一组原型向量刻画聚类结构，但是数据样本带标记，是监督学习。

算法：

其中6-9行意思是对样本xj，如果最靠近它的原型向量pi*和它标记一致，则让pi*向xj靠拢，否则远离。

3、高斯混合聚类

采用概率模型来刻画聚类原型

先看高斯分布概率密度函数：

n是向量x的维数。u是均值向量，是n*n协方差矩阵。

高斯混合分布：

即假设样本是由高斯混合分布给出的，αi是混合系数。：首先根据α1，α2……的先验分布选择高斯混合分布，然后根据被选择的混合成分的概率密度函数采样，生成样本。

给出样本xj由第i个高斯混合成分生成的后验概率，将其记成。

当高斯混合分布已知时，每个样本xj的簇标记这么确定：

那模型参数如何求解？即.极大似然法估计是个不错的主意：

分别对各参数求导为0，可解出个参数：

，从而：

得到：

同理，，可得：

最后求αi，它还有要求是：，写成拉格朗日形式：

求导得：

这是EM算法的套路：

每步迭代中，先根据当前参数求得每个样本属于每个高斯成分的后验概率，这是E步；在由后验概率用前面的参数计算式更新模型参数，这是M步、

具体如下：

9.5 密度聚类（DBSCAN)

先摆几个概念：

即

核心对象密度直达密度可达密度相连

用一个图直观显示这些概念：

算法规定形成的“簇”要满足连接性和最大性两个要求。

具体算法：

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。