聚类算法全解析:原理、应用与挑战
1. 聚类概述
聚类是探索性数据分析中广泛使用的技术之一。在各个领域,如社会科学、生物学和计算机科学,人们通过识别数据点之间有意义的组来初步了解数据。例如,计算生物学家根据基因在不同实验中的表达相似性对基因进行聚类;零售商根据客户资料对客户进行聚类以进行精准营销;天文学家根据恒星的空间接近度对恒星进行聚类。
直观上,聚类是将一组对象分组的任务,使得相似的对象最终在同一组中,而不相似的对象被分隔到不同组中。然而,这种描述相当不精确且可能存在歧义,很难给出更严格的定义。这主要有两个原因:
- 目标矛盾 :聚类的两个目标(相似对象在同一组,不相似对象在不同组)在很多情况下可能相互矛盾。例如,可能存在一系列对象,每个对象与其相邻对象非常相似,但序列首尾的对象却非常不相似。如果要保证相似元素在同一簇,就会导致不相似元素也在同一簇,违反了第二个要求。
- 缺乏“地面真相” :聚类是无监督学习问题,没有标签可预测,因此没有明确的成功评估程序。即使完全了解底层数据分布,也不清楚什么是该数据的“正确”聚类,以及如何评估提出的聚类。
一个给定的对象集可以以各种不同的有意义方式进行聚类,这可能是由于对象之间存在不同的隐含距离(或相似性)概念。例如,对语音记录按说话者口音聚类与按内容聚类,对电影评论按电影主题聚类与按评论情感聚类,对绘画按主题聚类与按风格聚类等。
2. 聚类模型
聚类任务的输入和输出类型各不相同。常见的设置如下:
- 输入 :一组元素 $X$ 和一个距离函数 $d: X
超级会员免费看
订阅专栏 解锁全文
1299

被折叠的 条评论
为什么被折叠?



