模式分类1--聚类分析

本文深入探讨了聚类分析的基本概念,包括无监督分类、距离度量、特征选择和降维方法。介绍了欧氏距离、马氏距离等相似性测度,以及聚类准则和不同聚类算法,如K-means、ISODATA等,并讨论了它们的优缺点和适用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

聚类分析:相同的归为一类,不同的归为另一类(无监督分类)

根据点(多维)的距离的远近进行分类。

在特征空间中,有很多点(特征向量),如果聚集在一起就很容易分类。

特征的选择会起决定作用。

特征的选择开始时,往往会选择多余的特征(不希望漏掉重要的特征)

反过来,维度会增加,增加复杂度。

同理,特征有些的相关度会比较大(不一定是原始特征,

还可能会出现使用在几个特征联合产生新的特征,有时有效,有时混淆)

通常采用降维。(要么去掉相关性大的特征,要么去掉不重要的特征)。

降维方法:

1、产生相关矩阵R=n*n

2、rij为第 i 与 j 的相关系数 =i j 的协方差/(i 的标准差*j 的标准差)

柯西不等式 证明 rij 从零到一

rij =0 不相关

rij=1 相关(有利于合并或者干脆略去一维)

 

数字化,离散化处理

连续量:用数值量化的结果带入测试

量级 :把一个范围作为一个数量化结果

名义尺度:0-女 1-男

 

相似性测度:

欧氏距离(点直线距离),量纲--就是对应的表示尺度单位。

我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。

马氏优缺点:

1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;

2)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧氏距离计算即可。

3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(34),(56)和(78),这种

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值