K-means聚类模型-优快云博客

本文链接：https://blog.youkuaiyun.com/Qpeterqiufengyi/article/details/139374722

本文详细介绍了K-Means聚类算法，包括其工作原理、与分类算法的比较、K-Means的优缺点以及聚类评估指标。通过实例展示了算法的应用，并讨论了初始质心的选择、迭代问题以及如何处理K值选取等问题，强调了K-Means在数据挖掘和分析中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

众所周知，机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。

监督学习常用于分类和预测。是让计算机去学习已经创建好的分类模型，使分类（预测）结果更好的接近所给目标值，从而对未来数据进行更好的分类和预测。因此，数据集中的所有变量被分为特征和目标，对应模型的输入和输出；数据集被分为训练集和测试集，分别用于训练模型和模型测试与评估。常见的监督学习算法有Regression(回归)、KNN和SVM(分类)。

无监督学习常用于聚类。输入数据没有标记，也没有确定的结果，而是通过样本间的相似性对数据集进行聚类，使类内差距最小化，类间差距最大化。无监督学习的目标不是告诉计算机怎么做，而是让它自己去学习怎样做事情，去分析数据集本身。常用的无监督学习算法有K-means、 PCA(Principle Component Analysis)。

聚类算法又叫做“无监督分类”，其目的是将数据划分成有意义或有用的组（或簇）。这种划分可以基于业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中，如果手头有大量的当前和潜在客户的信息，可以使用聚类将客户划分为若干组，以便进一步分析和开展营销活动。再比如，聚类可以用于降维和矢量量化，可以将高维特征压缩到一列当中，常常用于图像、声音和视频等非结构化数据，可以大幅度压缩数据量。

聚类算法与分类算法的比较: