从三元概念到三元聚类:一种新的数据挖掘方法
在数据挖掘领域,聚类分析是一种重要的技术,它能够帮助我们发现数据中的潜在模式和结构。随着数据的复杂性不断增加,传统的二元聚类方法已经难以满足需求,因此三元聚类和 n 元聚类的概念应运而生。本文将介绍一种基于形式概念分析(FCA)的三元聚类方法,探讨其原理、算法以及在实际数据中的应用。
1. 引言
二元聚类(biclustering)这一术语由 B.Mirkin 在 1996 年提出,随后三元聚类(triclustering)和 n 元聚类的出现也成为必然趋势。早在 70 年代初,Hartigan 就提出了类似的直接聚类方法。形式概念分析(Formal Concept Analysis,FCA)于 1982 年由 R. Wille 引入,其中的形式概念被用于二元数据的分析。1995 年,Lehman 和 Wille 提出了三元形式概念分析(Triadic Formal Concept Analysis,TCA),将 FCA 扩展到三元数据的处理。
形式概念和三元概念能够描述二元数据中具有同质性和封闭性的有用模式,但由于其结构的刚性和处理算法的计算复杂性(与输入数据的大小呈指数关系),人们引入了一些对形式概念的放松定义,如二元情况下的相关和密集双集、概念分解技术、密集二元聚类,以及三元情况下的三元概念因子。此外,还有一些技术用于减少形式概念的数量,例如冰山格和稳定性指标挖掘。
随着社交资源标记系统的普及和数据规模的增大,对可扩展且高效的三元聚类算法的需求变得越来越迫切。“用户 - 标签 - 资源”这种三元数据结构(即 folksonomy)是此类系统的核心数据结构。目前已知的挖掘 folksonomy 的算法之一是 TR