聚类算法(K-means + Fuzzy C-means + Hierarchical + Mixture of Gaussians)---第一部分:简介

本文介绍了聚类算法的基本概念,包括其定义、应用领域、要求及存在的问题。详细讲解了聚类算法的不同分类方法,如独占聚类、重叠聚类、层次聚类和概率聚类,并介绍了几种常用的聚类算法,如K-means、Fuzzy C-means、层次聚类和混合高斯。此外,还探讨了距离和相似性度量在聚类中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

什么是聚类? 聚类可以被认为是最重要的无监督学习问题; 所以,像这样的其他问题一样,它涉及在未标记数据的集合中找到一个结构。聚类的简单定义可能是“将对象组织成某些成员相似的组的过程”。因此,"cluster"是它们之间“相似”的对象的集合,并且与属于其他"cluster"的对象“不相似”。我们可以用简单的图示来显示它:


在这种情况下,我们可以轻松识别数据可以划分为4个簇; 相似性标准是距离:如果两个或更多个对象属于相同的cluster,则它们根据给定的距离(在这种情况下是几何距离)是“接近”的。这被称为基于距离的聚类
另一种聚类是概念聚类:如果这个对象定义了所有对象共有的概念,则两个或多个对象属于同一个cluster。换句话说,对象根据它们对描述性概念的适应性分组,而不是根据简单的相似性度量。


补充:

将数据分成多个类别,在同一个类内,对象(实体)之间具有较高的相似性,不同类对象间差异性较大。
–对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也称为无监督分类。
–聚类的质量(或结果)取决于对度量标准的选择。
–聚类结果因不同任务而不同。

聚类的目标:

聚类的目的是确定一组未标记数据的内在分组, 但是如何决定什么构成好的聚类?可以看出,没有绝对的“最佳”标准独立于聚类的最终目标。因此,用户必须提供这个标准,使得聚类的结果能满足他们的需要。


可能的应用:

聚类算法可以应用于许多领域,例如:
  • 营销:找到具有相似行为的客户群体,提供包含其属性和过去购买记录的大量客户数据数据库;
  • 生物学:赋予植物和动物特征的分类;
  • 图书馆:书籍订购;
  • 保险 :确定平均索赔成本高的汽车保险单位群体; 识别欺诈
  • 城市规划:根据房屋类型,价值和地理位置确定房屋群;
  • 地震研究:聚类观测地震震中识别危险区域;
  • WWW:文件分类; 将网络日志数据聚类以发现类似访问模式的组。


聚类的要求:

  • 可扩展性
  • 处理不同类型的属性;
  • 发现任意形状的cluster;
  • 域知识的最小要求确定输入参数;
  • 处理噪音和异常值的能力;
  • 输入记录排序不敏感;
  • 高维度
  • 可解释性和可用性。

存在的问题:

  • 当前的聚类技术不能充分(并发)满足所有的要求;
  • 处理大量的维数和大量的数据项可能会因为时间复杂而有问题;
  • 该方法的有效性取决于“距离”的定义(用于基于距离的聚类);
  • 如果不存在明显的距离度量,我们必须“定义”它,这并不总是容易的,特别是在多维空间中;
  • 聚类算法的结果(在许多情况下可以是任意的)可以用不同的方式来解释。


聚类算法介绍

分类

聚类算法可以分类如下:
  • Exclusive Clustering
  • Overlapping Clustering
  • Hierarchical Clustering
  • Probabilistic Clustering

在第一种情况下,数据以独占方式进行分组,因此如果某个数据属于确定的cluster,则不能将其包含在另一个cluster中。在下图中示出了一个简单的例子,其中点的分离通过在二维平面上的直线来实现。
相反,第二种类型,重叠聚类,使用模糊集来聚类数据,使得每个点可以属于具有不同隶属度的两个或更多个聚类。在这种情况下,数据将被关联到适当的成员资格值。



相反,层次聚类算法基于两个最近聚类之间的并集。通过将每个数据设置为一个cluster来实现开始条件。经过几次迭代,它达到了想要的最终cluster。

最后一种聚类使用完全概率的方法。

在本教程中,我们提出了四种最常用的聚类算法:

  • K-means
  • Fuzzy C-means
  • Hierarchical clustering
  • Mixture of Gaussians

这些算法中的每一个都属于上面列出的一个聚类类型。因此,K-means 是一种独占的聚类算法,Fuzzy C-means 是一种重叠的聚类算法,分层聚类是显而易见的,最后的高斯混合 是概率聚类算法。我们将在以下段落中讨论每个聚类方法。


距离与相似性度量

聚类算法的一个重要组成部分是数据点之间的距离测量。如果数据实例向量的组件都处于相同的物理单元中,那么简单的欧几里得距离度量就足以成功地组合类似的数据实例。然而,即使在这种情况下,欧几里得距离有时也会产生误导。下图显示了一个对象的宽度和高度测量示例。尽管在相同的物理单位中进行了两次测量,但是必须对相对比例做出明智的决定。如图所示,不同的缩放可能导致不同的聚类。



补充:

距离的定义: 

设有 d 维空间的三个样本x,y 和 z,记 d(. , .)为一个 R^d × R^d →R的映射,如满足如下几个条件则称d(. , .)为一个距离:
•d(x, y) ≥ 0 非负性
•d(x, x) = 0 自相似性
•d(x, y) = d(y, x) 对称性
•d(x, y) ≤ d(x, z) + d(z, y) 三角不等式
–距离可以描述对点间的相异程度,距离越大,两个点越不相似;距离越小,两个点越相似。

闵可夫斯基度量
对于更高维尺寸的数据,流行的做法是闵可夫斯基度量,

其中d是数据的维数。可以看出欧几里德距离是一个特殊情况,其中p = 2,而曼哈顿度量(城区距离)具有p = 1。常见的距离还有:

切比雪夫距离: 

Mahalanobis (马氏)距离,其中,M是半正定矩阵。M为单位矩阵时,退化为欧氏距离度量。M为对角矩阵时,退化为特征加权欧氏距离

相似性

  

然而,对于任何给定的应用来说,选择一个度量没有一般的理论指导。

通常情况下,数据特征向量的组件不能立即比较。可能原因是,组件不是连续变量,如长度,而是名义类别,例如一周中的几天。在这些情况下,必须使用领域知识来制定适当的措施。




Reference:

1.  http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html

2. 《pattern classification》

3. 《pattern recongnition and machine learning》


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值