科研数据匹配与同质集成方法解析
在科研数据处理与分析领域,数据匹配和集成是关键环节。本文将深入探讨两个重要方面:一是SONCA系统在出版物数据库中的命名实体匹配,二是基于平衡随机集和提升的同质集成方法在数据挖掘中的应用。
1. SYNAT平台与SONCA系统
SYNAT项目是波兰政府的大型国家研发计划,旨在建立一个统一的网络平台,用于存储和服务广泛科学技术领域的数字信息。该项目由近50个模块组成,由波兰16家领先研究机构的研究团队开发。
在这个大项目框架下,SONCA系统应运而生。它的目标是让用户能够基于语义内容在科学信息存储库中进行搜索,最终能根据用户查询语义列出并展示相关资源。SONCA系统需要理解查询意图和存储文档内容,高效检索相关信息,还能利用各类知识库和独立信息源。
SONCA仓库模型的匹配需求源于构建关系数据模式,以高效存储和查询解析后的科学文章及相关实体。为实现对用户可能感兴趣实体的高效查询,需要进行实例匹配以生成对象。
1.1 SONCA分析数据仓库
SONCA分析索引服务器(数据仓库)的内部架构采用EAV/CR模型,仓库结构分为三层,我们主要关注上层的实例层和对象层。为控制数据库大小并高效执行查询,采用了Infobrigt的RDBMS引擎。
解析器处理本地存储库的文档时,会为文档中识别出的每种实体类型在数据库的通用(与实例相关)部分创建一个实例。实例存储在数据表中,保留原始文档中关系结构的信息。实例可以很简单,如单个单词或数字,也可以很复杂,如代表出版物及其所有子实例(标题、出版年份、出版商等)的实例。
匹配结果存储在数据库服务器的特殊表中,该表存储实例(原始