机器学习笔记-16-优快云博客

本文介绍了无监督学习中的聚类算法，特别是K-Means算法，包括其工作原理（簇分配和移动聚类中心）、优化目标（失真代价函数）、随机初始化的重要性以及选择K值的方法（肘部法则）。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

无监督学习

监督学习的训练样本可能会是{ $x^{(1)},y^{(1)})、(x^{(2)},y^{(2)})...(x^{(i)},y^{(i)})$ }。但是无监督学习的训练样本是{ $x^{(1)}、x^{(2)}...x^{(i)}$ }，没有 $y$ 的存在。

在无监督学习的过程中我们要做的就是将这些没有标签的数据输入到算法中，让算法找到一些隐含在数据中的结构。

1.聚类算法(clustering algorithm)
聚类学算法是一个无监督学习算法，要学习不带标签的数据而不是之前带标签的数据，聚类算法将一些无标签的数据自动分类成有紧密关系的子集或者簇。K均值(K-Means)算法是现在最热门、最为广泛应用的聚类算法。

2.K-Means

K-Means算法是一个迭代算法，主要会做两件事情：簇分配和移动聚类中心(Cluster Centroids)。K-Means算法每次内循环的第一步是进行簇分配，也就是遍历每个样本，将样本根据与哪个聚类中心更近就分给哪个聚类中心（几个聚类中心就分几类）的原则进行分类。随后是移动聚类中心，

假设有一组样本如下图，要对其使用K-Means算法将其分成两类。
在这里插入图片描述
step1:随机生成两点，这两点就叫聚类中心。

选取两点的原因是因为想将数据分成两类。

在这里插入图片描述
step2:进行簇分配：遍历所有样本（图上的绿点），看他们与哪个聚类中心（红叉和蓝叉）距离更近。如果与红色聚类中心更近，就分配给红叉；如果与蓝色聚类中心更近就分配给蓝叉。
通俗来讲就是遍历数据集将绿点染色染成蓝色和红色。
在这里插入图片描述
step3:移动聚类中心：找出所有红色的点算出均值，找出所有蓝色的点算出均值，然后将红叉和蓝叉移动到和他们同色的点的均值处。