判别式聚类分析:原理、方法与应用
1. 引言
聚类是数据分析中广泛使用的统计方法,在多媒体内容检索、分子生物学、文本挖掘和生物信息学等领域都有应用。随着处理高维大数据集的数据库应用增多,聚类成为重要研究领域。然而,许多已知算法在高维空间中存在问题,如点的稀疏性导致算法失效,并非所有维度都对聚类有意义,异常值难以检测,以及维度灾难使聚类成为挑战。同时,处理大量数据时,时间复杂度也成为限制因素。
聚类算法主要分为两类:划分式和层次式。划分式方法(如 k - 均值、高斯混合模型、图论方法、模式搜索)只产生数据的一种划分,而层次式方法(如单链接、全链接)会产生多种划分。其中,k - 均值是最简单且广泛研究和扩展的无监督学习算法之一。尽管 k - 均值因编程简单和性能良好而被广泛使用,但它也有缺点,如对初始条件敏感,不能去除对聚类无用的特征,仅对超球形聚类最优,且时间复杂度为 O(nkl),空间复杂度为 O(k),对于大数据集不太实用。
为解决这些问题,本文提出判别式聚类分析(DCA)。DCA 同时进行聚类和降维。首先,DCA 通过鼓励保留同一类相邻数据点之间的距离,找到适合聚类的低维数据投影。数据投影到低维空间后,DCA 对数据进行“软”聚类。然后,将此信息反馈到降维步骤,直到收敛。在 DCA 子空间中聚类不易陷入局部极小值,能去除与聚类无关的噪声维度,计算速度更快(尤其是高维数据)。
2. 相关工作
2.1 k - 均值和谱图方法:统一框架
k - 均值是解决聚类问题的简单且流行的无监督学习算法。聚类是将 n 个数据点划分为 c 个不相交的簇。k - 均值聚类通过最大化簇间差异与簇内差异的比值,将 n 个对象划分为 c
判别式聚类分析原理与应用
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



