文本聚类中的层次聚类算法
1. 层次聚类的基本概念
层次聚类是一种聚类分析方法,它通过递归地将数据对象分组为嵌套的簇来创建一个树状结构(树状图)。与传统的划分聚类方法不同,层次聚类不仅提供了一组固定的簇,还提供了一个簇的层级结构,使得用户可以根据需要选择不同层次的簇。这种灵活性使得层次聚类在许多应用场景中非常有用。
层次聚类可以分为两种主要类型: 凝聚层次聚类 (Agglomerative Hierarchical Clustering)和 分裂层次聚类 (Divisive Hierarchical Clustering)。凝聚层次聚类从每个对象作为一个独立的簇开始,然后逐步合并最相似的簇,直到所有对象都合并到一个簇中。分裂层次聚类则相反,它从所有对象属于一个簇开始,然后逐步将簇分裂成更小的子簇,直到每个对象成为一个独立的簇。
1.1 层次聚类与其他聚类方法的区别
层次聚类与其他聚类方法的主要区别在于其输出结果的形式和过程。其他聚类方法(如 K均值、模糊 C均值)通常生成一组固定的簇,而层次聚类则生成一个树状图,允许用户根据需要选择不同层次的簇。此外,层次聚类不需要预先指定簇的数量,这使得它在处理未知数据时更加灵活。
2. 凝聚层次聚类的具体步骤
凝聚层次聚类是最常用的层次聚类方法之一。它的工作原理如下:
- 初始化 :每个对象作为一个独立的簇。
- 计算距离 :计算所有簇之间的距离或相似度。
超级会员免费看
订阅专栏 解锁全文
2655

被折叠的 条评论
为什么被折叠?



