聚类算法与目标解码错误概率所需信噪比解析
聚类算法
聚类算法在数据处理和分析中起着重要作用,它能将数据点分组,使组内数据点相似,组间数据点不同。以下将介绍几种常见的聚类方法及其特点。
层次聚类方法
层次聚类方法与分区方法不同,它不需要预先指定聚类的数量,而是通过对数据进行层次分解来确定最佳的聚类数量。主要有两种类型:
- 凝聚式(自底向上方法) :每个数据点最初都属于自己的簇,随着层次的上升,两两簇逐渐合并。
- 分裂式(自顶向下方法) :所有数据点最初都在一个簇中,随着层次的下降,簇会递归地分裂。
通常,合并和分裂操作是通过贪心算法来确定的,结果通常以树状图的形式呈现。为了决定哪些簇应该合并(凝聚式)或在哪里分裂(分裂式),需要一个衡量观测集之间差异的指标。这通常通过使用适当的距离度量(观测对之间的距离度量)和链接准则来实现,链接准则将集合的差异表示为集合中观测对距离的函数。
以凝聚式层次聚类为例,其具体步骤如下:
1. 每个数据点构成自己的簇,即单例簇。
2. 合并彼此最接近的两个簇。这需要计算数据点之间的距离,并使用链接准则,如单链接/完全链接/平均链接(簇之间的最小/最大/平均距离)、质心链接(两个簇质心之间的距离)、Ward准则(最小化簇内总方差,并找到合并后簇内总方差增加最小的簇对)。合并后簇的数量减少一个。
3. 重新计算/更新新簇和旧簇之间的距离。
4. 重复步骤2和3,直到所有簇合并为一个包含所有数据点的单簇。
下面是凝聚式层次聚类的流程图:
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



