无标签数据聚类分析:从 k-means 到评估方法
1. 聚类分析简介
在之前的学习中,我们使用监督学习技术构建机器学习模型,这些数据的答案(类别标签)是已知的。而聚类分析则属于无监督学习技术,它能帮助我们在事先不知道正确答案的数据中发现隐藏结构。聚类的目标是在数据中找到自然分组,使得同一簇内的项目彼此之间比与不同簇的项目更相似。
聚类分析具有探索性,以下是一些有助于将数据组织成有意义结构的概念:
- 利用流行的 k-means 算法寻找相似性中心。
- 采用自下而上的方法构建层次聚类树。
- 使用基于密度的聚类方法识别对象的任意形状。
2. 使用 k-means 按相似性对对象进行分组
k-means 是最流行的聚类算法之一,在学术界和工业界都有广泛应用。聚类技术能让我们找到相似对象的组,这些对象彼此之间的关联比与其他组的对象更紧密。例如,在商业应用中,聚类可用于按不同主题对文档、音乐和电影进行分组,或者根据共同的购买行为找到具有相似兴趣的客户,作为推荐引擎的基础。
2.1 使用 scikit-learn 进行 k-means 聚类
k-means 算法易于实现,并且与其他聚类算法相比,计算效率很高。它属于基于原型的聚类类别,每个簇由一个原型表示,对于连续特征通常是质心(平均值),对于分类特征是中心点(最具代表性或到该簇所有其他点距离最小的点)。
k-means 虽然擅长识别球形簇,但它的一个缺点是需要事先指定簇的数量 k。不合适的 k 值可能导致聚类性能不佳。后续我们会讨论肘部法和轮廓图,这些技术有助于评估聚类质量,确定最佳的簇数量 k。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



