数据聚类方法:从层次聚类到DBSCAN
1. 层次聚类概述
层次聚类是一种强大的聚类方法,它在处理数据时有着独特的优势。它主要有两种实现方式:凝聚式和分裂式。
1.1 凝聚式与分裂式聚类
- 凝聚式聚类 :采用自下而上的方法,将每个数据点视为一个单独的簇,然后递归地将相邻的数据点合并,直到形成一个大的簇。
- 分裂式聚类 :采用自上而下的方法,从一个大的簇开始,递归地将其分解,直到每个数据点都成为一个单独的簇。分裂式聚类虽然理论上可能更准确,因为它从一开始就对整个数据分布有全面的了解,但它增加了复杂性,降低了稳定性,并且增加了运行时间。
1.2 链接准则
链接准则用于计算候选簇之间的距离。常见的链接准则包括单链接和完全链接:
- 单链接 :通过比较每个簇中最接近的点来确定簇之间的距离。
- 完全链接 :通过比较每个簇中最远的点来确定簇之间的距离。
1.3 层次聚类的优势
与k - 均值聚类相比,层次聚类的一个巨大优势在于,当你对数据中的簇数量没有先验知识时,可以通过评估树状图来主观选择合适的簇。树状图可以直观地展示数据的分裂情况,帮助你确定合理的簇数量。
2. 回顾k - 均值和层次聚类
在无监督学习中,我们通常会面对一组特征数据,但没有对应的标签来告诉我们这些特征变量的具体含义。为了从数据中提取结构信息,我们可以使用聚类方法将相似的数据点分组。
超级会员免费看
订阅专栏 解锁全文

2713

被折叠的 条评论
为什么被折叠?



