聚类分析入门:从基础概念到 k-means 算法实践
1. 聚类分析简介
在机器学习领域,聚类是一项极具价值的任务。它旨在从数据集中找出相似数据的分组,帮助我们挖掘数据背后的潜在意义。例如,作为商店老板,若想了解哪些顾客更有价值,但又没有明确的“价值”定义,聚类分析就是一个很好的切入点,能帮助我们在海量数据中发现规律。
1.1 聚类的基本概念
聚类的基本定义是将相似的数据归为一组,作为更大数据集的子集。以一个有 10 人的房间为例,若这些人分别从事金融或科研工作,让金融工作者站在一起,科研工作者站在一起,就形成了基于职业类型的两个聚类。通过聚类,我们可以识别出数据中更相似或差异较大的项目。
1.2 识别聚类
通过散点图可以直观地观察数据中的聚类情况。例如,展示的两个散点图,其中的数据点是从高斯分布中随机生成的数对(x, y 坐标)。从图中可以明显看出数据中的聚类位置,但在现实生活中,识别聚类往往没有这么简单。
graph LR
A[原始数据] --> B[绘制散点图]
B --> C[观察聚类位置]
1.3 二维数据
以一个包含 1000 行、两列数值数据的数据集为例,乍一看,这个数据集似乎没有明显的结构。在数据集中,维度可以简单理解为可用特征的数量,通常在有组织的数据表中,特征数量就是列的数量。对于这个 1000 行、两列的数据集,我们有 1000 个观测值,分布在两个维度上。为了更好地了解数据结构,我们可以将第一列与第二列进行绘图。
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



