A Tutorial on Clustering Algorithms - Clustering Algorithms【翻译】

最新推荐文章于 2025-07-17 00:56:46 发布

翻译最新推荐文章于 2025-07-17 00:56:46 发布 · 934 阅读

·

1

·

文章标签：

#clustering #聚类 #聚类分类 #简介

文本挖掘专栏收录该内容

10 篇文章

订阅专栏

本文介绍了聚类算法的基础概念，包括互斥聚类、重叠聚类、层次聚类及概率聚类等不同分类方式，并详细阐述了四种常用聚类算法：K-means、Fuzzy C-means、层次聚类与混合高斯模型。此外还讨论了距离测度的重要性及其对聚类效果的影响。

原文章 A Tutorial on Clustering Algorithms，包含以下部分：

本文为 Clustering Algorithms 翻译内容，后续内容请直接点击以上链接（☑为已完成内容）。

本文系Subson翻译，转载请注明。

聚类算法

算法分类

聚类算法可被分为以下列出的：

互斥聚类
重叠聚类
层次聚类
概率聚类

第一种聚类算法采用互斥的方式将数据聚类，所以如果某一个数据属于一个确切的族簇，那么它将不会包含在另一个族簇中。下图为一个简单的例子，其中点的分离是通过二维平面上的一条直线。

与第一种聚类算法相反，第二种重叠聚类使用模糊数据集聚类数据，所以在不同程度关系上来看一个点可能属于两个或者更多的族簇。这种情况下，数据将会关联一个合适的关系值。

作为替代，层次聚类算法是基于最近的两个族簇的联合。初始条件是设置作为族簇的每一个基准。经过几次迭代它能达到期望的族簇。

最后一种聚类算法完全采用概率学方法。

在本教程中，我们提出四种最常用的聚类算法：

K-means
Fuzzy C-means
Hierarchical clustering
Mixtyre of Gaussians

这里四种具体的聚类算法分别是上面列举的四种聚类算法的一种。K-means属于互斥聚类，Fuzzy C-means属于重叠聚类，Hierarchical clustering显然是层次聚类，Mixtyre of Gaussians属于概率聚类算法。我们将在接下来的段落讨论以上每一种聚类算法。

距离测度

聚类算法一个非常重要的组成是数据点之间的距离测度。如果数据矢量实例分量都具有相同的物理单元，那么采用简单的欧氏距离度量去成功聚类相似数据实例是足够的。然而即使这样，欧氏距离有时也能导致误导，下图采用宽度和高度作为距离测度举例说明。两种测度都采用相同的物理单元，使用不同的比例缩放（一个在宽度上做缩放，一个在高度上做缩放）。如图所示，不同的缩放导致不同的聚类结果。

注意这不仅仅是一个平面问题，这种问题也发生在联合为了聚类的目的所采用的独特距离测度和数据特征向量的单一组成的数学公式上，即不同的公式导致不同的聚类结果。

重述，对于每个具体的应用必须将领域知识用于指导合适的距离测度公式。

闵可夫斯基度规

对于高维数据，一个常用的距离度量就是闵可夫斯基度规

d p (x i, x j) = (\sum K - 1 d ∣ ∣ x i, k - x j, k ∣ ∣ p) 1 p

${{d}_{p}}\left( {{x}_{i}},{{x}_{j}} \right)={{\left( \sum\limits_{K-1}^{d}{{{\left| {{x}_{i,k}}-{{x}_{j,k}} \right|}^{p}}} \right)}^{\frac{1}{p}}}$

其中 $d$ 是数据的纬度。欧氏距离是 $p=2$ 时的特殊情况，当 $p=1$ 时则是曼哈顿指标。然而对于任意给定的应用场景，并没有一个一般化理论进行指导。

通常情况下，数据特征向量的分量不具备即刻可比性。可能是这些分量不是连续变量，比如长度，而某些只是名义上的分类，比如一星期的每一天。这再次说明，领域知识必须用于制定合适的度量。

后续章节待续。。。

本文系Subson翻译，转载请注明。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。