模式识别学习笔记(12)——聚类

本文主要探讨了聚类中的关键概念,包括距离与相似度的度量、混合密度函数以及重点讲解了K-均值聚类算法,是模式识别学习的重要笔记。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

聚类

对一批没有类别标签的样本集,按照样本之间的 相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为 聚类分析,也称为 无监督分类
--聚类的质量(或结果)取决于对 度量标准的选择。
--聚类结果 因不同任务而不同





挑战性问题

–可伸缩性
•可伸缩性是指聚类算法无论 对于小数据集还是大数据集,都应有效;无论对小类别数据还是大别类数据,都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据,也可处理非数㨁型数据;既可处理离散数据,也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇,球状的、位于同一流形上的数据。因此,选择合适的距离度量很关键。
–能够处理高维数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值