19、聚类算法全解析:原理、应用与挑战

聚类算法全解析:原理、应用与挑战

1. 聚类概述

聚类是探索性数据分析中广泛使用的技术之一。在各个领域,如社会科学、生物学和计算机科学,人们通过识别数据点之间有意义的组来初步了解数据。例如,计算生物学家根据基因在不同实验中的表达相似性对基因进行聚类;零售商根据客户资料对客户进行聚类以进行精准营销;天文学家根据恒星的空间接近度对恒星进行聚类。

直观上,聚类是将一组对象分组的任务,使得相似的对象最终在同一组中,而不相似的对象被分隔到不同组中。然而,这种描述相当不精确且可能存在歧义,很难给出更严格的定义。这主要有两个原因:
- 目标矛盾 :聚类的两个目标(相似对象在同一组,不相似对象在不同组)在很多情况下可能相互矛盾。例如,可能存在一系列对象,每个对象与其相邻对象非常相似,但序列首尾的对象却非常不相似。如果要保证相似元素在同一簇,就会导致不相似元素也在同一簇,违反了第二个要求。
- 缺乏“地面真相” :聚类是无监督学习问题,没有标签可预测,因此没有明确的成功评估程序。即使完全了解底层数据分布,也不清楚什么是该数据的“正确”聚类,以及如何评估提出的聚类。

一个给定的对象集可以以各种不同的有意义方式进行聚类,这可能是由于对象之间存在不同的隐含距离(或相似性)概念。例如,对语音记录按说话者口音聚类与按内容聚类,对电影评论按电影主题聚类与按评论情感聚类,对绘画按主题聚类与按风格聚类等。

2. 聚类模型

聚类任务的输入和输出类型各不相同。常见的设置如下:
- 输入 :一组元素 $X$ 和一个距离函数 $d: X

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值