19、聚类算法全解析：原理、应用与挑战

电竞养老选手

于 2025-09-24 13:41:32 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习：从理论到实践文章标签：聚类算法 k-均值谱聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/152390175

机器学习：从理论到实践专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类算法全解析：原理、应用与挑战

1. 聚类概述

聚类是探索性数据分析中广泛使用的技术之一。在各个领域，如社会科学、生物学和计算机科学，人们通过识别数据点之间有意义的组来初步了解数据。例如，计算生物学家根据基因在不同实验中的表达相似性对基因进行聚类；零售商根据客户资料对客户进行聚类以进行精准营销；天文学家根据恒星的空间接近度对恒星进行聚类。

直观上，聚类是将一组对象分组的任务，使得相似的对象最终在同一组中，而不相似的对象被分隔到不同组中。然而，这种描述相当不精确且可能存在歧义，很难给出更严格的定义。这主要有两个原因：
- 目标矛盾 ：聚类的两个目标（相似对象在同一组，不相似对象在不同组）在很多情况下可能相互矛盾。例如，可能存在一系列对象，每个对象与其相邻对象非常相似，但序列首尾的对象却非常不相似。如果要保证相似元素在同一簇，就会导致不相似元素也在同一簇，违反了第二个要求。
- 缺乏“地面真相” ：聚类是无监督学习问题，没有标签可预测，因此没有明确的成功评估程序。即使完全了解底层数据分布，也不清楚什么是该数据的“正确”聚类，以及如何评估提出的聚类。

一个给定的对象集可以以各种不同的有意义方式进行聚类，这可能是由于对象之间存在不同的隐含距离（或相似性）概念。例如，对语音记录按说话者口音聚类与按内容聚类，对电影评论按电影主题聚类与按评论情感聚类，对绘画按主题聚类与按风格聚类等。

2. 聚类模型

聚类任务的输入和输出类型各不相同。常见的设置如下：
- 输入：一组元素 $X$ 和一个距离函数 $d: X

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。