基于BIRCH聚类特征树的高效图像分割算法
在处理大规模数据集时,直接应用谱聚类算法可能会面临内存不足的问题。KASP(基于K-means的近似谱聚类)算法通过使用经典的K-means对数据进行局部降维,将相邻的数据点合并为一组局部“代表点”,使得单机能够在几分钟内对包含数百万个观测值的数据集进行谱聚类。然而,该算法可能会遗漏大型数据集中的一些小聚类。
问题分析
当数据集在聚类前被划分为多个分区时,每个分区中的数据点元素可能出现以下三种情况:
1. 分区包含聚类Ci中的全部或大量数据点。
2. 分区包含聚类Ci中的少量数据点。
3. 分区不包含聚类Ci中的任何数据点。
在对每个分区进行聚类时,会得到三种不同的聚类结果。对于第一种情况,新分区中的数据点与原始聚类Ci中的数据点分布相似,因此更有可能被聚类到Ci中;对于第二种情况,由于新分区中的数据点太少,它们可能不遵循原始数据集中的分布特征,从而更有可能产生错误的聚类结果;对于第三种情况,聚类Ci中的数据点未参与聚类过程,因此在最终的聚类结果中该聚类不存在。这意味着,在KASP预处理后,如果局部“代表点”集不包含原始数据集中的所有聚类,就会遗漏一些重要但相对较小的聚类。
基于BIRCH树的聚类合并
谱聚类作为近年来新兴的一种有竞争力的聚类算法,主要应用于图像分割。假设给定一组在未知环境中拍摄的图像,目标是根据从图像中提取的基于补丁的局部颜色特征来识别图像中的所有对象。为了完成这个任务,首先使用谱算法对每个图像进行分割,为每个图像生成多个聚类。这样可能会出现不同聚类的数据点被标记为相同的聚类标签,而属于同一聚类的数据点在不同图像中被聚类到不同的聚类中。因此,下一
基于BIRCH树的图像分割算法
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



