无监督学习--K-Means_簇内误差平方和-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44769733/article/details/119841095

本文详细介绍了无监督学习中的K-Means聚类算法，包括其基本概念、簇与质心、距离度量以及簇内误差平方和。通过欧几里得距离、曼哈顿距离和余弦距离来衡量样本间的相似性，并通过整体平方和（Inertia）评估聚类效果。同时，文章展示了如何使用Scikit-Learn库实现K-Means，并通过轮廓系数确定最优的簇数K。最后，讨论了初始化参数对模型的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

无监督学习–K-Means

	聚类	分类
核心	将数据分成多组探索每个组的数据是否有联系	从已经分组的数据中去学习把新的数据放到已经分好的组中去
学习类型	无监督,无标签训练	有监督,需要标签进行训练
典型算法	K-Means,DBSCAN,层次聚类,光谱聚类	决策树,贝叶斯,逻辑回归,KNN
算法输出	聚类结果是不确定的不一定总是能够反映数据的真实分类同样的聚类,根据不同的业务需求,可能是好的结果也可能是不好的结果	分类结果是确定的分类的优劣是客观的不是根据业务或算法决定的

一:算法原理

1.概念:簇和质心

簇:即分类之后的每一类就叫簇

质心:簇的所有数据的均值,可以理解为中心点

KMeans 的核心任务就是根据我们设定好的 K，找出 K 个最优的质心，并将离这些质心最近的数据分别分配到这些质心代表的簇中去。

注意:簇的个数 K 是一个超参数，需要我们人为输入来确定

2.簇内误差平方和的定义

聚类算法的目的:簇内差异小,簇外差异大,差异的判断通过点到簇的质心的距离来衡量

所以:所有样本点到质心的距离之和越小，我们就认为这个簇中的样本越相似，簇内差异就越小

距离的集中衡量方式:

$\sqrt{ {\sum_{i=1}^{n}}{(x_i-μ_i)^2}} \\ 曼哈顿距离:d(x,μ) = \sum_{i=1}^{n}(|x_i-μ|) \\ 余弦距离: cosθ = \frac{\sum_{1}^{n}(x_i*μ)}{\sqrt{\sum_{1}^{n}(x_i)^2}*\sqrt{\sum_{1}^{n}(μ)^2}}$