多关系数据挖掘:方法与应用
1. 多关系数据挖掘概述
关系数据库是结构化数据最常用的存储库,其中多个关系通过实体 - 关系链接相互关联。然而,许多传统分类方法(如神经网络和支持向量机)只能处理单表形式的数据,而现实中的许多应用(如信用卡欺诈检测、贷款申请和生物数据分析)需要基于关系数据库中多个关系的信息进行决策,因此多关系数据挖掘变得至关重要。
多关系数据挖掘(MRDM)旨在从关系数据库的多个表(关系)中寻找模式。它有多种任务,包括多关系分类、聚类和频繁模式挖掘。
- 多关系分类 :构建利用不同关系信息的分类模型。
- 多关系聚类 :根据元组自身属性以及不同关系中相关元组的信息将元组分组。
- 多关系频繁模式挖掘 :寻找不同关系中相互关联项的模式。
在多关系分类数据库中,有一个目标关系 $R_t$,其元组称为目标元组并关联有类标签,其他关系为非目标关系。每个关系可能有一个主键和多个外键,主键用于唯一标识关系中的元组,外键用于与其他关系建立链接。构建准确的多关系分类器的关键是在不同关系中找到有助于区分正、负目标元组的相关特征。
例如,在一个金融数据库中,目标关系为 Loan ,每个目标元组表示贷款是否按时偿还。多关系分类的任务就是利用不同关系的信息构建一个假设,以区分正、负目标元组。
分类时,通常会寻找有助于区分正、负目标元组的假设,最常见的形式是规则集。每个规则是一系列谓词的逻辑合取,并关联一个类标签。谓词是对关系中
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



