关联开放数据挖掘:以智力障碍相关基因为例
1. 引言
在数据挖掘领域,关联开放数据(LOD)的挖掘具有重要意义。本文提出了一种方法,该方法能够对LOD进行选择、集成,然后使用归纳逻辑编程(ILP)进行挖掘。下面将详细介绍相关的技术背景、数据处理步骤以及实验结果。
2. 技术背景
2.1 LOD挖掘准备
LOD的复杂性促使了许多关于数据挖掘前准备工作(即选择、集成、格式化)的研究。以下是一些相关的方法:
- 提出了一个系统,通过在格结构中组织数据来指导LOD的选择,该格结构能提供有关实体类型及其关系的信息。
- Callahan等人提议将不同数据集的LOD映射到名为SIO的上层本体,该本体作为全局模式,其术语用于编写跨LOD数据集的联合查询。
- SADI是一个便于发现和使用Web服务的通用框架,它基于语义Web技术开发,适合定义可查询SPARQL端点并集成结果的管道。
- COEUS平台遵循类似的原理,但包含一个便于数据集成的联合层。
然而,这些解决方案在实体在不同数据集上没有唯一URI或数据集之间未定义链接时可能不适用。因此,本文提出了一种简单而通用的方法来选择和集成待挖掘的LOD。
2.2 LOD挖掘
关于LOD挖掘的多个研讨会的出现,表明语义Web和数据挖掘社区对该主题的兴趣日益增长。相关工作主要分为两类:
- 完善或纠正LOD :例如,Gangemi等人提出了一种使用图模式和消歧技术对DBpedia实体进行系统类型化的方法;其他作者研究了如何系统地提出缺失的链接,特别是在不相关的数据集之间。 <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



