目录
一.关于聚类
什么是聚类:
聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
什么不是聚类:
● 监督分类 – 有类标签信息(通常就叫做分类)
● 简单分割 – 按姓氏的字母顺序将学生分为不同的注册组
● 查询结果 – 分组是外部规范的结果
● 图形分区 – 一些相互关联和协同作用,但领域并不相同
本文深入探讨了聚类算法的各类方法,包括k-means、DBSCAN、层次聚类(凝聚式与分裂式)、基于密度的CURE算法和变色龙算法。通过详细解释每个算法的工作原理和应用场景,帮助读者全面理解聚类的本质和挑战。
目录
聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
● 监督分类 – 有类标签信息(通常就叫做分类)
● 简单分割 – 按姓氏的字母顺序将学生分为不同的注册组
● 查询结果 – 分组是外部规范的结果
● 图形分区 – 一些相互关联和协同作用,但领域并不相同
1万+
1万+
4万+

被折叠的 条评论
为什么被折叠?