机器学习与数据挖掘中的聚类算法解析
在机器学习领域,专家致力于通过自动化的流程从数据中发现通用模式或模型,以解决归纳问题。在着手解决问题之前,需要明确几个关键问题:可用的数据有哪些?具体的任务是什么?如何衡量所学习到的规律的质量或性能?哪些类型的规律是我们所关注的?只有在这些问题得到解答后,才会开始在可能的规律空间中进行搜索。
同时,机器学习也需要考虑可行性问题。随着数据量的不断增大以及所考虑的规律变得更加复杂,学习过程中涉及的计算对空间和时间的要求也成为选择或设计学习方法时的重要因素,这也体现了机器学习与计算机科学的融合。不过,机器学习专家虽需了解各类算法的计算需求,但这并非其首要专长,这与人工智能专家主要关注知识表示和自动推理,而对计算问题关注相对较少类似。
1. 聚类概述
聚类的目标是找出数据集 $S = {x_1, \ldots, x_m}$ 的潜在组织结构。通常,一个观测值由其在一组描述符 ${X_1, \ldots, X_d}$ 上的值来表示,从而定义了输入空间 $X$。大多数聚类方法需要定义对象对之间的相异度度量(用 $dis$ 表示)或相似度(也称为亲和度)度量(用 $sim$ 表示)。
自探索性数据分析诞生以来,聚类就备受关注,并且已经发展出了许多方法。主要分为分区方法(旨在构建数据集 $S$ 的分区)和层次方法(旨在将数据组织成层次结构)。不同的方法根据聚类的建模方式有所不同,例如基于原型的方法寻找聚类的代表点,基于密度的方法假设聚类由相连的密集区域组成,生成式方法假设数据由高斯混合模型生成,谱聚类则依赖于相似度度量和反映对象间相似度链接的图的构建。
此外,离群点检测与聚类密切相关,但本文暂不涉及。离群点是指与其他观测值
超级会员免费看
订阅专栏 解锁全文
1447

被折叠的 条评论
为什么被折叠?



