判别式聚类分析:原理、方法与实验验证
1. 引言
聚类是数据分析中广泛应用的统计方法,在多媒体内容检索、分子生物学、文本挖掘和生物信息学等领域都有重要作用。随着处理大规模高维数据集的数据库应用不断增加,聚类成为众多学科的重要研究领域。然而,许多已知算法在高维空间中往往会失效,因为高维空间中数据点稀疏,并非所有维度都与聚类相关,异常值难以检测,而且维度灾难使聚类成为具有挑战性的问题。同时,处理大量数据时,时间复杂度也成为限制因素。
聚类算法主要分为两类:划分式和层次式。划分式方法(如 k - 均值、高斯混合模型、图论方法、模式搜索)只能生成数据的一个划分;而层次式方法(如单链接、全链接)则可以生成多个划分。其中,k - 均值是最简单且广泛研究和扩展的无监督学习算法之一。尽管 k - 均值因其编程简单和性能良好而被广泛使用,但它存在一些缺点,如对初始条件敏感,不能去除对聚类不利的特征,仅对超球形聚类最优,且时间复杂度为 O(nkl),空间复杂度为 O(k),对于大规模数据集来说,这种复杂度可能不切实际。
为了部分解决这些挑战,本文提出了判别式聚类分析(DCA)。DCA 同时进行聚类和降维。首先,DCA 通过鼓励保留属于同一类的相邻数据点之间的距离,找到适合聚类的低维数据投影。将数据投影到低维空间后,DCA 对数据进行“软”聚类。然后,将此信息反馈到降维步骤,直到收敛。在 DCA 子空间中进行聚类不太容易陷入局部极小值,能去除与聚类无关的噪声维度,且计算速度更快(尤其是对于高维数据)。
2. 相关工作
2.1 k - 均值和谱图方法:统一框架
k - 均值是解决聚类问题最简单和最流行的无监督学习算法之一。聚类是将 n
超级会员免费看
订阅专栏 解锁全文
4623

被折叠的 条评论
为什么被折叠?



