聚类与集合理论基础:概念、算法与数学工具
1. 聚类概述
聚类是将一组对象根据对象间的某种相异度度量划分为子集(即簇)的过程。其目标是将相似的对象归为一组,同时确保不同组中的对象具有较大差异。
聚类属于无监督机器学习领域,与有监督机器学习不同。有监督机器学习利用标记数据创建数据模型,从而对未见过的数据进行标签预测;而聚类则是从“未标记”的数据中发现隐藏结构。由于数据项没有预先分类或标记,无监督学习算法的评估较为困难。
有监督学习从有先验知识的数据样本开始,试图将这种知识推广到更大的数据量上;无监督学习则没有先验知识,其目标是推断数据中存在的“自然”结构。典型的有监督学习活动包括分类和回归,而典型的无监督学习活动包括聚类和密度估计。目前,有监督学习在机器学习领域取得了显著成功,但聚类作为主要的无监督学习活动,尚未取得与之相当的成果。
无监督学习利用大量可用的原始数据,被广泛认为是当今机器学习面临的最重要挑战之一。聚类目前仍处于发展阶段,不同的聚类算法应用于同一数据集可能会产生不同类型的聚类结果,而且缺乏指导算法选择的通用原则。
研究聚类需要广泛的数学学科知识,如组合数学、拓扑学、线性代数、优化理论等。将聚类视为优化问题具有一定难度,因为每种聚类类型都存在目标函数不具备最优性质的情况,而且大多数优化问题难以求解,用户通常只能使用近似算法。此外,由于数据分布的多样性以及某些基本聚类概念的不足,数据中簇的存在性(即数据的可聚类性)难以形式化。
人类在识别对象分组方面表现出色,尤其是在一维、二维甚至三维数据集的情况下。然而,机器学习算法在这方面的表现往往不如人类。许多聚类算法需要用户提供簇的数量作为输入参数,这可能导致算法合并或拆
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



