模糊c均值聚类_数据挖掘之6——聚类问题

最新推荐文章于 2023-11-14 17:07:08 发布

原创最新推荐文章于 2023-11-14 17:07:08 发布 · 834 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#模糊c均值聚类

本文补充介绍了多种聚类方法，包括k-中心点聚类，其使用中位数代替均值；BIRCH，通过聚类特征树实现多阶段聚类；Chameleon，利用动态建模的多阶段层次聚类；以及概率层次聚类，基于概率模型的聚类分析。此外，还提到了网格聚类方法如STING和CLIQUE，以及处理高维数据的双聚类和谱聚类。这些方法在处理不同特性的数据集时各有优势，适用于不同的聚类需求。

关于一些常见的聚类问题，之前的文章有详细说明过，可以参考

大饼：机器学习之7——聚类(Clustering)zhuanlan.zhihu.com

这篇文章主要补充一些之前没有提到过的其他聚类方法。

k-中心点聚类

这是对于k均值聚类的一个补充，我们知道，k均值聚类选择簇的方式是样本点的均值，距离度量方式为欧氏距离，k中心点聚类的距离度量方式是

，这里的

是所有对象

与

的代表对象

的

绝对误差之和。其中

为样本点的

中位数。

从D中随机选取k个对象作为初始的代表对象；
repeat：
1. 将每个剩余的对象分配到最近的代表对象所代表的簇；
2. 随机选择一个非代表对象
  ；
3. 计算用其替换代表对象
  的总代价
  ；
4. 如果代价更小，就替换当前代表对象，并形成新的k个簇
否则不发生变化，重新repeat；

BIRCH：使用聚类特征树的多阶段聚类

每个簇的聚类特征（CF）是一个三维向量，汇总对象簇的信息：

是n个点的线性和

；

是n个点的平方和

；

利用以上信息可以统计一些统计量，比如簇的形心

，半径R以及直径D等:

R代表成员对象到形心的平均距离，D是簇中逐对对象之间的平均距离。

优势有以下两点：

用聚类特征来概括簇可以避免存储个体对象的详细信息；
聚类特征线性可加，如果两个簇要合并，那么两个簇的聚类特征可以依次线性相加；适合增量聚类；

CF树的结构

上图为CF树，从根结点依次往下，分别存储每个簇的聚类特征，每个非叶子结点都有自己的子女（子簇）的聚类特征汇总，依次往下层次化铺开，可以看成是对数据的多层压缩。

刚开始对于叶结点进行聚类，将稀疏簇当作离群点删除，剩余的簇合并为更大的簇，直到根节点，形成一颗完整的CF树。

这种聚类方式在球状簇数据中表现很好（因为通过R和D设置阈值控制树的生成），并且支持增量聚类，具有线性可伸缩性。

Chameleon：使用动态建模的多阶段层次聚类

如果两个簇的互连性都很高并且之间有靠得很近就将其合并。Chameleon不用依赖于一个静态的用户提供的模型，能够自适应合并簇的内部特征。

Chameleon聚类过程

如上图所示，先用k-最近邻图构建一个稀疏图，每个顶点作为一个数据对象，如果另一个对象是其k个最相似的对象之一那么就会有一条边。这些边通过加权来反映对象间的相似度。Chameleon使用图划分方法，把k-最近邻图划分为大量相对较小的簇。簇C被划分成子簇Ci和Cj，使得被切断的权重之和最小。

然后使用凝聚层次聚类算法，基于子簇的相似度反复合并子簇，这里的相似度综合考虑互连性和邻近性。

相互连接度

包含

的簇的割边最小和，

是将

划分为大致相等的两部分的割边最小和。

相互接近度

是连接

顶点和

顶点的边平均权重，

是最小二分簇

的边的平均权重。

Chameleon在发现高质量的任意形状的簇方面具有更强的能力。

概率层次聚类

用来解决聚类问题的三类问题：

层次聚类好的距离度量选择；
数据对象不能有缺失的属性值，否则无法计算距离；
大部分层次聚类是启发式，局部搜索好的合并/划分，导致聚类层次结构的优化目标不清晰

概率层次聚类的任务是使用待聚类的观测数据为对象。尽可能准确地估计生成模型。实际中可以假定数据生成模型为常见的分布函数，比如高斯函数等。学习生成模型的任务就是找出使得模型最佳拟合观测数据集的参数值。（统计学知识：根据观测值计算最大似然函数，估计分布模型的参数）

度量两个簇之间的距离：

概率层次聚类先从每个对象为一个簇开始，如果两个簇之间的距离为负，则合并，每次迭代过程中，我们试图找到Ci和Cj，

，

只要

，聚类质量提高，迭代继续。

概率层次模型的一个优点在于，如果数据集有缺失值，可以在每个维度上使用该维度的观测值独立学习一个高斯模型。

网格聚类方法

目前介绍的聚类方法都是由数据驱动的，空间聚类方法不受数据影响，而是采用空间驱动的方法，将嵌入空间划分为独立于输入对象分布的单元。

STING：统计信息网路

STING聚类的层次结构

每个网格单元的属性统计信息（mean、maxmin、distribution等）被作为统计参数预先计算和存储。高层单元的统计参数可以很容易的从低层单元的参数计算得到。最底层单元的属性统计信息由数据计算，distribution可以由用户指定或者通过假设检验来获得，高层单元的分布类型基于对应的低层单元多数的分布类型，用阈值过滤过程的合取来计算。

统计参数的使用按照自顶向下的网格方式，首先选取单元数较少的高层的那元，计算该单元与给定查询相关程度的置信区间，只考虑具有相关性单元，接着将相关性单元映射到低层，只检查较高层相关单元所映射到的低层单元，直至到最底层。

STING优点：

基于网格的计算是独立于查询；
网格结构有利于并行处理和增量更新；
效率高，聚类复杂度O(n)，查询复杂度O(g)，g是最底层网格单元数目。

但是此方法在构建父亲单元时没有考虑子女单元和其相邻近单元之间的联系。

CLIQUE：类似于Apriori子空间聚类方法

数据往往由着数十种属性，其中很多可能互相是不相关的，这些因素使得我们很难在整个数据空间找出簇，在数据的不同子空间搜索簇可能会更有意义。比如在健康领域，患者记录包含大量属性来描述个人信息、大量症状、身体状况、家族病史等，找出所有甚至大部分属性上非常一致的患者群是不大可能的。

CLIQUE用于发现子空间中基于密度的簇它把每个维度划分为不重叠的区间，从而把数据对象的整个嵌入空间划分为单元。并且使用到一个密度的阈值来识别稠密单元和稀疏单元。

将d维空间划分为若干互不重叠的矩阵单元，扫描所有网络，当发现第一个稠密单元，便开始以此扩展，扩展原则是若一个单元与已知稠密单元邻接并且自身也是密集，则将该单元加入其中，直到不再有符合条件的单元为止；
在k维的子空间中，将每个k-1维的稠密单元区间进行组合，并保留密度大于密度阈值的重叠结果，一旦计算k-1维度的稠密单元，可以通过最后k-1个候选者的所有组合来扩展到k维度

CLIQUE可以自动发现含有高密度簇的最高维子空间，当数据维度增加时也有良好的可伸缩性，但是聚类结果非常依赖于预先设定的网格大小和密度阈值。