聚类算法（K-means + Fuzzy C-means + Hierarchical + Mixture of Gaussians）---第一部分：简介_hierarchical gaussian mixture markov chains-优快云博客

本文介绍了聚类算法的基本概念，包括其定义、应用领域、要求及存在的问题。详细讲解了聚类算法的不同分类方法，如独占聚类、重叠聚类、层次聚类和概率聚类，并介绍了几种常用的聚类算法，如K-means、Fuzzy C-means、层次聚类和混合高斯。此外，还探讨了距离和相似性度量在聚类中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

什么是聚类？聚类可以被认为是最重要的无监督学习问题; 所以，像这样的其他问题一样，它涉及在未标记数据的集合中找到一个结构。聚类的简单定义可能是“将对象组织成某些成员相似的组的过程”。因此，"cluster"是它们之间“相似”的对象的集合，并且与属于其他"cluster"的对象“不相似”。我们可以用简单的图示来显示它：

在这种情况下，我们可以轻松识别数据可以划分为4个簇; 相似性标准是距离：如果两个或更多个对象属于相同的cluster，则它们根据给定的距离（在这种情况下是几何距离）是“接近”的。这被称为基于距离的聚类。
另一种聚类是概念聚类：如果这个对象定义了所有对象共有的概念，则两个或多个对象属于同一个cluster。换句话说，对象根据它们对描述性概念的适应性分组，而不是根据简单的相似性度量。

补充：

将数据分成多个类别，在同一个类内，对象（实体）之间具有较高的相似性，不同类对象间差异性较大。
–对一批没有类别标签的样本集，按照样本之间的相似程度分类，相似的归为一类，不相似的归为其它类。这种分类称为聚类分析，也称为无监督分类。
–聚类的质量(或结果)取决于对度量标准的选择。
–聚类结果因不同任务而不同。

聚类的目标：

聚类的目的是确定一组未标记数据的内在分组，但是如何决定什么构成好的聚类？可以看出，没有绝对的“最佳”标准独立于聚类的最终目标。因此，用户必须提供这个标准，使得聚类的结果能满足他们的需要。

可能的应用：

聚类算法可以应用于许多领域，例如：

营销：找到具有相似行为的客户群体，提供包含其属性和过去购买记录的大量客户数据数据库;
生物学：赋予植物和动物特征的分类;
图书馆：书籍订购;
保险：确定平均索赔成本高的汽车保险单位群体; 识别欺诈
城市规划：根据房屋类型，价值和地理位置确定房屋群;
地震研究：聚类观测地震震中识别危险区域;
WWW：文件分类; 将网络日志数据聚类以发现类似访问模式的组。

聚类的要求：

可扩展性
处理不同类型的属性;
发现任意形状的cluster;
域知识的最小要求确定输入参数;
处理噪音和异常值的能力;
输入记录排序不敏感;
高维度
可解释性和可用性。

存在的问题：

当前的聚类技术不能充分（并发）满足所有的要求;
处理大量的维数和大量的数据项可能会因为时间复杂而有问题;
该方法的有效性取决于“距离”的定义（用于基于距离的聚类）;
如果不存在明显的距离度量，我们必须“定义”它，这并不总是容易的，特别是在多维空间中;
聚类算法的结果（在许多情况下可以是任意的）可以用不同的方式来解释。

聚类算法介绍

距离与相似性度量

聚类算法的一个重要组成部分是数据点之间的距离测量。如果数据实例向量的组件都处于相同的物理单元中，那么简单的欧几里得距离度量就足以成功地组合类似的数据实例。然而，即使在这种情况下，欧几里得距离有时也会产生误导。下图显示了一个对象的宽度和高度测量示例。尽管在相同的物理单位中进行了两次测量，但是必须对相对比例做出明智的决定。如图所示，不同的缩放可能导致不同的聚类。

补充：

距离的定义:

设有 d 维空间的三个样本x，y 和 z，记 d(. , .)为一个 R^d × R^d →R的映射，如满足如下几个条件则称d(. , .)为一个距离:
•d(x, y) ≥ 0 非负性
•d(x, x) = 0 自相似性
•d(x, y) = d(y, x) 对称性
•d(x, y) ≤ d(x, z) + d(z, y) 三角不等式
–距离可以描述对点间的相异程度，距离越大，两个点越不相似；距离越小，两个点越相似。