深入探索无监督学习:从聚类到特征提取
1. 何时使用无监督学习
无监督学习(UL)在很多场景下都非常适用,常见的情况包括:
- 没有明确的响应变量:即没有明确要预测或与其他变量关联的目标。
- 从看似无结构或模式的数据中提取结构:即使是有监督学习问题,也可能需要先进行无监督学习来发现数据的潜在结构。
- 特征提取:通过现有特征创建新的特征,这些新特征可能比原始特征更强大。
其中,第一个原因是数据科学家选择使用无监督学习最常见的原因。当处理数据时,如果没有明确要预测的列,只是想找到相似或不同的数据点组,就可以使用无监督学习。第二个原因在尝试使用有监督模型预测响应变量时也会发挥作用。有时候,简单的探索性数据分析(EDA)可能无法在人类可想象的低维度中发现数据的明确模式,而机器可能在更高维度中发现数据点之间的相似行为。第三个原因是从现有特征中提取新特征,这些新特征可用于未来的有监督模型或展示目的。
2. k - 均值聚类
k - 均值聚类是无监督机器学习(UML)模型的一个典型例子。它的目的不是进行预测,而是从看似无结构的数据中提取结构。
聚类是一类UML模型,试图将数据点分组到具有质心的簇中。相似性的概念是聚类定义和聚类分析的核心。一般来说,数据点之间的相似性越高,聚类效果越好。在大多数情况下,将数据转换为n维空间中的点,并使用这些点之间的距离作为相似性的度量。簇的质心通常是每个簇中每个数据点在每个维度(列)上的平均值。
k - 均值聚类是一种迭代方法,将数据集划分为k个簇,具体步骤如下:
1. 选择k个初始质心(k是输入参数)。
2. 对于每个数据点,将其分配给最近的质
超级会员免费看
订阅专栏 解锁全文
554

被折叠的 条评论
为什么被折叠?



