1、聚类与集合理论基础：概念、算法与数学工具

emacs5lisp

于 2025-08-10 13:12:48 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：聚类：从理论到实践文章标签：聚类无监督学习集合理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/emacs5lisp/article/details/152184297

聚类：从理论到实践专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类与集合理论基础：概念、算法与数学工具

1. 聚类概述

聚类是将一组对象根据对象间的某种相异度度量划分为子集（即簇）的过程。其目标是将相似的对象归为一组，同时确保不同组中的对象具有较大差异。

聚类属于无监督机器学习领域，与有监督机器学习不同。有监督机器学习利用标记数据创建数据模型，从而对未见过的数据进行标签预测；而聚类则是从“未标记”的数据中发现隐藏结构。由于数据项没有预先分类或标记，无监督学习算法的评估较为困难。

有监督学习从有先验知识的数据样本开始，试图将这种知识推广到更大的数据量上；无监督学习则没有先验知识，其目标是推断数据中存在的“自然”结构。典型的有监督学习活动包括分类和回归，而典型的无监督学习活动包括聚类和密度估计。目前，有监督学习在机器学习领域取得了显著成功，但聚类作为主要的无监督学习活动，尚未取得与之相当的成果。

无监督学习利用大量可用的原始数据，被广泛认为是当今机器学习面临的最重要挑战之一。聚类目前仍处于发展阶段，不同的聚类算法应用于同一数据集可能会产生不同类型的聚类结果，而且缺乏指导算法选择的通用原则。

研究聚类需要广泛的数学学科知识，如组合数学、拓扑学、线性代数、优化理论等。将聚类视为优化问题具有一定难度，因为每种聚类类型都存在目标函数不具备最优性质的情况，而且大多数优化问题难以求解，用户通常只能使用近似算法。此外，由于数据分布的多样性以及某些基本聚类概念的不足，数据中簇的存在性（即数据的可聚类性）难以形式化。

人类在识别对象分组方面表现出色，尤其是在一维、二维甚至三维数据集的情况下。然而，机器学习算法在这方面的表现往往不如人类。许多聚类算法需要用户提供簇的数量作为输入参数，这可能导致算法合并或拆

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。