MOSAIC:基于Gabriel图的凝聚式聚类算法
1. 引言
在聚类问题中,基于代表点的聚类方法因理论基础坚实、计算复杂度低而广受欢迎,其中最具代表性的是k - means算法。k - means以簇的质心作为代表点,迭代更新簇和质心,直至达到最佳局部配置。其计算复杂度为$O(k⋅t⋅n)$,其中$k$是簇的数量,$t$是迭代次数,$n$是数据集中对象的数量。
然而,k - means存在三个主要问题:一是需要预先知道簇的数量$k$;二是得到的簇形状局限于凸形状,处理非凸形状数据时效果不佳;三是对代表点的初始化和离群点非常敏感。
凝聚式层次聚类(AHC)能够检测任意形状的簇,但它只合并最接近的两个簇,搜索空间狭窄,容易错过高质量的解决方案,且计算复杂度为$O(n*n)$或更高,不适用于大规模数据集。
为解决这些问题,提出了一种新的混合聚类算法MOSAIC,它结合了基于代表点的聚类和凝聚式聚类的优点。该算法利用外部给定的适应度函数,贪婪地合并相邻簇。相邻关系通过Gabriel图计算,非凸形状由基于代表点的聚类算法生成的小凸簇合并而成。
MOSAIC的主要贡献包括:
- 引入了一种结合基于代表点的聚类和凝聚式聚类的混合聚类算法。
- 该技术具有高度通用性,不受特定代表聚类算法或适应度函数的限制。
- 与传统凝聚式聚类算法相比,MOSAIC对合并候选簇的搜索范围更广。
- 可作为后处理方法,用于识别具有复杂形状的簇。
2. MOSAIC的后处理
2.1 使用Gabriel图确定相邻簇
给定一组对象,邻近图能够表示相邻关系。在聚类中,Del
MOSAIC:基于Gabriel图的聚类算法
超级会员免费看
订阅专栏 解锁全文
4615

被折叠的 条评论
为什么被折叠?



