9、数据聚类的无监督学习方法解析

最新推荐文章于 2025-11-19 16:00:39 发布

异步汪仔

最新推荐文章于 2025-11-19 16:00:39 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习赋能机器人视觉文章标签：聚类算法无监督学习 K-means

本文链接：https://blog.youkuaiyun.com/d3e4f/article/details/151991282

机器学习赋能机器人视觉专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据聚类的无监督学习方法解析

1. 聚类算法概述

在数据聚类中，选择合适的聚类算法并非易事，因为诸如距离函数、密度阈值或预期聚类数量等参数，都依赖于具体的数据集和结果的预期用途。通常，需要通过实验来选择最适合特定问题的聚类算法，除非有数学依据表明某一种聚类模型更优。需要注意的是，为某一种模型设计的算法，通常在包含截然不同模型的数据集上会失效。聚类分析不是一个自动的任务，而是一个涉及试错的知识发现或交互式多目标优化的迭代过程。往往需要调整数据预处理和模型参数，直到结果达到预期的特性。

常见的聚类模型包括基于划分的模型、层次聚类模型、基于密度的模型和基于图的模型。基于划分的模型用单个均值向量表示每个聚类；层次聚类基于距离连接性构建模型；密度模型将聚类定义为数据空间中相连的密集区域；基于图的模型可视为聚类的一种典型形式。

2. 基于划分的聚类算法

基于划分的聚类算法，也称为基于代表的算法，直接依赖于直观的距离（或相似度）概念对数据点进行聚类。通常使用一组划分代表来完成聚类，这些代表可以是聚类中数据点的函数（如均值），也可以从聚类中的现有数据点中选择。在数据集中发现高质量的聚类与发现高质量的代表集密切相关。一旦确定了代表，就可以使用距离函数将数据点分配给与其最接近的代表。

2.1 优化问题

通常，用户需要指定聚类的数量 $k$。基于划分的聚类是一个优化问题，即找到 $k$ 个聚类中心，并将对象分配到其最近的聚类中心，使得各数据点到聚类中心的平方距离之和最小。考虑一个包含 $N$ 个数据点 $x_1 \ldots x_N$ 的数据集 $D$，其位于 $d$ 维空间中。目标是确定 $k$ 个代表 $o_1 \ldots o_