聚类分析:基础概念与算法详解
聚类分析是数据挖掘和机器学习领域中一项重要的技术,它能够将数据集中的样本划分为不同的类别,使得同一类别内的样本具有较高的相似性,而不同类别之间的样本具有较大的差异性。本文将详细介绍聚类分析的基本概念、层次聚类和 k - 均值聚类算法。
1. 聚类的基本概念
1.1 距离与相似性
在聚类过程中,距离或相似性的选择至关重要。距离和相关系数之间存在一定的关系,合适的距离或相似性度量能够更准确地反映样本之间的关系,从而得到更合理的聚类结果。
1.2 类或簇的定义
聚类得到的类或簇本质上是样本的子集。聚类方法可分为硬聚类和软聚类:
- 硬聚类 :假设一个样本只能属于一个类,类与类之间的交集为空。
- 软聚类 :一个样本可以属于多个类,类与类之间的交集不为空。本文主要讨论硬聚类方法。
常用的类或簇的定义如下:
- 定义 14.5 :设 $T$ 为给定的正数,若集合 $G$ 中任意两个样本 $x_i$ 和 $x_j$ 满足 $d_{ij} \leq T$,则 $G$ 称为一个类或簇。
- 定义 14.6 :设 $T$ 为给定的正数,对于集合 $G$ 中的任意样本 $x_i$,在 $G$ 中必定存在另一个样本 $x_j$,使得 $d_{ij} \leq T$,则 $G$ 称为一个类或簇。
- 定义 14.7 :设 $T$ 为给定的正数,对于 $G$ 中的任意样本
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



