概念
BIRCH算法的全称是Balanced Iterative Reducing and Clustering Using Hierarchies,即利用层次方法的迭代归约和聚类。它的主要思想是建立一棵B树,原始数据存放在叶子节点中,并根据聚类个数和其它参数的设置放在不同的叶子节点中。
聚类特征CF
聚类特征CF是BIRCH算法最核心的概念,它是多个数据点的结合表示,是一个三元组 (N,LS,SS) ,其中 N 代表数据点的个数,
比如有3个点 (1,2,3),(4,5,6),(7,8,9) ,那么
⎧⎩⎨⎪⎪⎪⎪⎪⎪N=3LS→=(1+4+7,2+5+8,3+6+9)=(12,15,18)SS→=(1+16+49,4+25+64,9+36
BIRCH算法详解

BIRCH算法是一种迭代归约和层次聚类方法,通过建立聚类特征树(CF树)来节省存储空间和减少IO操作。核心概念是聚类特征CF,由数据点个数N、线性总和LS和方差总和SS组成。算法流程包括数据点的逐个添加和CF树的分裂。优点在于节省空间、速度快,但缺点是结果受数据插入顺序影响,对非球状簇和高维数据聚类效果不佳。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



