数据挖掘中的模式比较、树构建与多源数据学习
在数据挖掘领域,模式比较、构建进化树以及从多源数据中学习是重要的研究方向。下面将详细介绍相关的方法和成果。
1. 简单与复杂模式比较框架
1.1 背景与需求
在数据挖掘中,计算模式之间的相似性是一项重要操作。它有助于衡量描述不断变化的数据或从不同来源提取的数据的模式差异,还能评估数据挖掘算法在同一数据集上的不同表现,同时可用于在模式库上表达相似性查询。
1.2 框架特点
提出了一个通用框架,用于评估简单和复杂模式之间的相似性。该框架具有以下主要特点:
- 结构和度量相似性概念 :考虑模式的结构和度量两方面的相似性。
- 多耦合类型和聚合逻辑管理 :能够处理多种耦合类型和聚合逻辑。
- 复杂模式相似性的递归定义 :对于结构由其他模式组成的复杂模式,其相似性采用递归定义。
1.3 模式类型与相似性计算
- 简单模式 :结构不包含其他模式的模式。例如,D 维空间中的欧几里得聚类是简单模式,其结构由聚类的中心(D 维向量)和半径(实值)表示,度量可能包括平均簇内距离和支持度。两个相同类型的简单模式的相似性通过聚合函数将结构和度量组件的相似性组合计算。若结构组件相同,则相似性度量自然对应于模式度量的比较;若结构组件不同,则需要先“调和”两个结构以使其具有可比性。
- 复杂模式 :结构包含其他模式的模式,如聚类模