无监督学习中的K-means聚类算法详解
1. 无监督学习概述
在数据处理中,为分类或回归任务对一组观测值进行标注是一项艰巨的任务,特别是在特征集较大的情况下。有时,带标签的观测值可能无法获取或难以创建。为了从观测值中提取隐藏的关联或结构,数据科学家会借助无监督学习技术来检测数据中的模式或相似性。
无监督学习的目标是发现一组观测值中的规律和异常模式。这些技术还可用于缩小解决方案空间或特征集,类似于计算机科学中常用的分治法。
常见的无监督学习算法有很多,不同算法适用于不同的场景。本文将介绍三种最常见的无监督学习算法:
- K-means:对观测特征进行聚类。
- 期望最大化(EM):对观测特征和潜在特征进行聚类。
- 主成分分析(PCA):降低模型的维度。
这些算法可应用于技术分析或基本面分析。
2. 聚类的概念
对于大型数据集且包含大量特征的问题,处理起来会变得非常棘手,并且很难评估特征之间的独立性。任何需要一定程度优化以及至少计算一阶导数的计算,都需要大量的计算能力来处理高维矩阵。因此,采用分治法对大型数据集进行分类是一种有效的方法,其目标是将连续、无限或非常大的数据集简化为具有某些共同属性的小观测组。
2.1 数据聚类的可视化
这种方法被称为向量量化。向量量化是一种将一组观测值划分为大小相似的组的方法。其主要优点是,使用每个组的代表进行分析比分析整个数据集要简单得多。
聚类,也称为聚类分析,是向量量化的一种形式,它依赖于距离或相似性的概念来生成称为簇的组。
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



