k-means聚类算法全面解析
1. 聚类基础概念
聚类是一种数据分析问题,旨在根据样本属性的相似性或距离,将给定的样本分组为若干“类”或“簇”。一个类是样本的子集,直观上,相似的样本会聚集在同一类中,而不相似的样本则会被分到不同的类。
距离或相似度度量在聚类中起着至关重要的作用。常见的距离度量有闵可夫斯基距离,它包含欧几里得距离、曼哈顿距离、切比雪夫距离和马氏距离等。常用的相似度度量有相关系数和夹角余弦。当使用距离来衡量相似度时,距离越小,样本越相似;当使用相关系数时,相关系数越大,样本越相似。
类作为样本的子集,有如下基本定义:用 $G$ 表示类或簇,$x_i$、$x_j$ 等表示类中的样本,$d_{ij}$ 表示样本 $x_i$ 和样本 $x_j$ 之间的距离。若对于任意的 $x_i, x_j \in G$,都有 $d_{ij} \leq T$,则 $G$ 被称为类或簇。描述类特征的指标包括中心、直径、散度矩阵和协方差矩阵。
聚类过程中使用的类间距离也称为链接,类间距离包括最短距离、最长距离、中心距离和平均距离。
2. k-means聚类策略
k-means聚类本质上是对样本集 $X$ 进行划分,或者说是选择从样本到类的函数。其策略是通过最小化损失函数来选择最优的划分或函数 $C^*$。
首先,使用欧几里得距离的平方作为样本间的距离:
[d(x_i, x_j) = \sum_{k=1}^{m} (x_{ki} - x_{kj})^2 = \vert\vert x_i - x_j \vert\vert^2]
然后,将样本与其所属类中心的距离之和定义为损失函数: <
超级会员免费看
订阅专栏 解锁全文
8918

被折叠的 条评论
为什么被折叠?



