4、数据聚类：原理、算法与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151031336

数据聚类：原理、算法与应用

在数据处理与分析领域，数据聚类是一项至关重要的技术，它能够将数据集中的元素按照相似性进行分组，从而揭示数据的内在结构和规律。本文将深入探讨数据聚类的相关知识，包括最优 k - 划分、最小距离原则与 Voronoi 图、k - 均值算法以及单特征数据聚类等内容。

1. 最优 k - 划分

在实际应用中，我们常常需要将一个包含多个元素的集合划分为 k 个不同的簇，以实现数据的有效组织和分析。对于一个具有 n 个特征、m 个元素的集合 A，通常可以将其视为 Rⁿ 的一个子集。例如，对于一组 100 名高中生的性别和身高数据，我们可以将其表示为 R² 的一个子集，其中性别用 0（男性）和 1（女性）表示，身高以厘米为单位。

需要注意的是，在某些情况下，集合 A 可能实际上是一个多重集。以高中生数据为例，由于身高的取值范围有限，可能会存在相同性别且身高相同的学生，这就导致集合 A 中的某些点需要被重复计数。虽然多重集没有标准的表示方法，但为了方便起见，我们仍然使用普通集合的表示方式 A = {a₁, …, aₘ}，并将其视为加权集合，每个元素对应一个正整数权重。

为了衡量一个划分的优劣，我们可以定义一个距离函数 d : Rⁿ × Rⁿ → R⁺，通过以下步骤来评估划分的紧凑性和簇之间的分离度：
1. 对于每个簇 πⱼ，找到其中心 cⱼ，使得 cⱼ ∈ arg minₓ∈Rⁿ ∑ₐᵢ∈πⱼ d(x, aᵢ)。
2. 计算每个簇 πⱼ 的总离散度 F(πⱼ) = ∑ₐᵢ∈πⱼ d(cⱼ, aᵢ)。
3. 所有簇的总离散度之和 ∑ₖⱼ₌₁ F(πⱼ) 即为该划分的目标函数值，它代表了划分的质量，也是优化问题的目标函数。