基于非负矩阵分解的多视图聚类方法解析
1. 引言
数据聚类是从数据库中提取信息的关键步骤。它旨在通过将具有相似特征的对象分组,来发现一组项目的内在结构。与有监督分类相比,聚类任务更具挑战性,因为要发现的聚类数量通常是未知的,这使得评估聚类划分的质量变得困难。在过去的二十年里,随着多视图数据集、分散数据以及具有不同规模结构(如层次聚类)的数据集的出现,可用数据集变得更加复杂,这一任务变得更加艰巨。
单一的聚类算法在处理日益复杂的任务时,难以产生具有高度确定性的有竞争力的结果。然而,就像在现实世界中一样,通过结合多种方法可以更轻松地解决类似问题,从而提高输出的质量和可靠性。
近年来,非负矩阵分解(NMF)因其对非负数据的聚类能力而受到广泛关注,并已应用于特征选择、降维、聚类以及文本挖掘等多个领域。NMF方法由Paatero在1994年引入,它是一种无监督聚类方法,将数据矩阵分解为(通常)两个矩阵,且每个矩阵的所有元素均为非负。这种非负性使得构建的矩阵更易于解释,其中一个矩阵用于表示聚类的原型,另一个矩阵用于表示数据分区。
NMF方法是一种强大的技术,常用于各种关键应用。研究的数据集通常是非负的,有时还具有稀疏表示。在机器学习中,非负性与概率分布相关,而稀疏性与特征选择相关。Ding等人证明了正交NMF和k - 均值方法是等价的,Kim和Park在引入用于数据聚类的稀疏NMF技术时也强调了这种等价性,该方法在结果一致性方面优于k - 均值和NMF。
协作聚类是数据挖掘中的一个新挑战,相关研究较少。在本文中,假设我们有一组分散在多个地方的稀疏数据集,这些数据可能来自银行、商店或医疗组织的消费者。当数据集包含多个个体的信息,且这些个体的特征由相同变量
超级会员免费看
订阅专栏 解锁全文
49

被折叠的 条评论
为什么被折叠?



