9.1 聚类任务
终于来到“无监督学习”。聚类的训练样本标记是未知的,试图将数据集的样本划分为若干个不相交的子集,每个子集叫一个“簇”。聚类过程自动形成“簇”,至于“簇”的意义由你决定。
9.2性能度量
我们希望的是聚类结果“簇内相似度”高,而“簇间相似度”低。
“外部指标”:Jaccard系数 FM指数 Rand指数
内部指标:DB指数 Dunn指数
9.3距离计算
即函数dist(.,.),若是一个“距离度量”,则满足:非负性、同一性、对称性和直递性。
常用的是“闵可夫斯基距离”、欧式距离、曼哈顿距离。
这些距离适合计算有序属性的距离,至于”无序属性“,一般用VDM距离。
注意存在非度量距离。
9.4 原型聚类
理解什么叫原型聚类:算法先对一组原型进行初始化,然后对原型进行迭代更新求解。采用不同原型表示,则不同算法。
1、K-means算法
即k均值算法。给定数据集D={x1,x2,…,xm},"k均值“算法针对聚类所得簇划分C={C1,C2,…,Ck}最小化平方误差:
其中是簇Ci的均值向量。E越小,簇内样本相似度越高 。
K-means算法:
2、学习向量量化(LVQ)
也是试图找一组原型向量刻画聚类结构,但是数据样本带标记,是监督学习。
算法:
其中6-9行意思是对样本xj,如果最靠近它的原型向量pi*和它标记一致,则让pi*向xj靠拢,否则远离。
3、高斯混合聚类
采用概率模型来刻画聚类原型
先看高斯分布概率密度函数:
n是向量x的维数。u是均值向量,是n*n协方差矩阵。
高斯混合分布:
即假设样本是由高斯混合分布给出的,αi是混合系数。:首先根据α1,α2……的先验分布选择高斯混合分布,然后根据被选择的混合成分的概率密度函数采样,生成样本。
给出样本xj由第i个高斯混合成分生成的后验概率,将其记成。
当高斯混合分布已知时,每个样本xj的簇标记这么确定:
那模型参数如何求解?即.极大似然法估计是个不错的主意:
分别对各参数求导为0,可解出个参数:
,从而:
得到:
同理,,可得:
最后求αi,它还有要求是:,写成拉格朗日形式:
求导得:
这是EM算法的套路:
每步迭代中,先根据当前参数求得每个样本属于每个高斯成分的后验概率,这是E步;在由后验概率用前面的参数计算式更新模型参数,这是M步、
具体如下:
9.5 密度聚类(DBSCAN)
先摆几个概念:
即
核心对象 密度直达 密度可达 密度相连
用一个图直观显示这些概念:
算法规定形成的“簇”要满足连接性和最大性两个要求。
具体算法:
本文探讨了无监督学习中的聚类技术,包括K-means、LVQ、高斯混合模型及DBSCAN等算法原理与实现步骤。介绍了聚类任务的目标、性能度量方法以及常用的相似度计算方式。
433

被折叠的 条评论
为什么被折叠?



