目录
前言
层次聚类是机器学习中无监督学习的一种聚类算法。
一、层次聚类是什么?
层次聚类是无监督机器学习中聚类算法的一种。基于簇间的相似度在不同层次上分析数据,形成树状的聚类结构。有自底向上的聚合(Agglomerative)和自顶向下的分拆(Divisive)两种策略。自底向上的聚合策略最为常见。
聚合层次聚类算法,首先假设每个样本都是一个单独的簇,然后将相似度高的两个簇进行合并,建立一个新的簇,重复该过程,直到满足停止条件(只有一个簇为止)。
簇间相似度的计算方法:
最小距离:两个簇的最近样本决定,又称为单链接算法。
最大距离:两个簇的最远样本决定,又称为全链接算法。
平均距离:两个簇的所有样本对距离平均值决定,又称为均链接算法。
中心距离:两个簇的中心间的距离决定。
最小方差/离差平方和(ward):两个簇的所有样本对的距离平方和的平均决定。
二、层次聚类的优点和缺点
优点
- 算法简单,易于理解;
- 不需要预先指定聚类个数,自动得到聚类层次结构;
- 聚类结果可以通过树状图(Dendrogram)进行可视化;
- 可以处理非凸数据集;
缺点
- 对于噪声和离群点比较敏感;
- 高的时间复杂度(n^3)和空间复杂度(n^2),不适合大数据集;
- 算法很可能聚类成链状;
- 由于聚类结果是层次结构,无法像 K-means 那样直接得到聚类中心;
三、层次聚类的应用场景
层次聚类是一种常见的聚类分析技术,其应用场景包括但不限于以下几个方面:
- 生物学:层次聚类可以用于生物学中,将多个相关的基因或蛋白质数据聚类成几个无关的类别,从而更好地进行基因或蛋白质的分类和分析。
- 市场营销:层次聚类可以用于市场营销中,将多个相关的市场指标聚类成几个无关的类别,从而更好地进行市场分析和定位。
- 社交网络分析:层次聚类可以用于社交网络分析中,将多个相关的社交网络数据聚类成几个无关的社区,从而更好地进行社交网络分析和挖掘。
- 医学诊断:层次聚类可以用于医学诊断中,将多个相关的病例数据聚类成几个无关的疾病类型,从而更好地进行疾病诊断和治疗。
- 图像处理:层次聚类可以用于图像处理中,将多个相关的图像数据聚类成几个无关的图像类型,从而更好地进行图像处理和分析。
总之,层次聚类是一种非常常用的聚类分析技术,可应用于多种领域,特别

文章介绍了层次聚类的概念,包括其作为无监督学习的聚类方法,以及自底向上和自顶向下的策略。层次聚类具有无需预设聚类数量、可视化强等优点,但也存在对噪声敏感和高复杂度的问题。适用场景包括生物学、市场营销、社交网络分析等。文章还讨论了构建模型的注意事项,推荐了Python的实现库如scikit-learn,并给出了使用示例。此外,提到了评价指标如轮廓系数和Calinski-Harabasz指数。
最低0.47元/天 解锁文章
1629

被折叠的 条评论
为什么被折叠?



