45、聚类分析:基础概念与算法详解

聚类分析:基础概念与算法详解

聚类分析是数据挖掘和机器学习领域中一项重要的技术,它能够将数据集中的样本划分为不同的类别,使得同一类别内的样本具有较高的相似性,而不同类别之间的样本具有较大的差异性。本文将详细介绍聚类分析的基本概念、层次聚类和 k - 均值聚类算法。

1. 聚类的基本概念
1.1 距离与相似性

在聚类过程中,距离或相似性的选择至关重要。距离和相关系数之间存在一定的关系,合适的距离或相似性度量能够更准确地反映样本之间的关系,从而得到更合理的聚类结果。

1.2 类或簇的定义

聚类得到的类或簇本质上是样本的子集。聚类方法可分为硬聚类和软聚类:
- 硬聚类 :假设一个样本只能属于一个类,类与类之间的交集为空。
- 软聚类 :一个样本可以属于多个类,类与类之间的交集不为空。本文主要讨论硬聚类方法。

常用的类或簇的定义如下:
- 定义 14.5 :设 $T$ 为给定的正数,若集合 $G$ 中任意两个样本 $x_i$ 和 $x_j$ 满足 $d_{ij} \leq T$,则 $G$ 称为一个类或簇。
- 定义 14.6 :设 $T$ 为给定的正数,对于集合 $G$ 中的任意样本 $x_i$,在 $G$ 中必定存在另一个样本 $x_j$,使得 $d_{ij} \leq T$,则 $G$ 称为一个类或簇。
- 定义 14.7 :设 $T$ 为给定的正数,对于 $G$ 中的任意样本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值