19、科研数据匹配与同质集成方法解析

科研数据匹配与同质集成方法解析

在科研数据处理与分析领域,数据匹配和集成是关键环节。本文将深入探讨两个重要方面:一是SONCA系统在出版物数据库中的命名实体匹配,二是基于平衡随机集和提升的同质集成方法在数据挖掘中的应用。

1. SYNAT平台与SONCA系统

SYNAT项目是波兰政府的大型国家研发计划,旨在建立一个统一的网络平台,用于存储和服务广泛科学技术领域的数字信息。该项目由近50个模块组成,由波兰16家领先研究机构的研究团队开发。

在这个大项目框架下,SONCA系统应运而生。它的目标是让用户能够基于语义内容在科学信息存储库中进行搜索,最终能根据用户查询语义列出并展示相关资源。SONCA系统需要理解查询意图和存储文档内容,高效检索相关信息,还能利用各类知识库和独立信息源。

SONCA仓库模型的匹配需求源于构建关系数据模式,以高效存储和查询解析后的科学文章及相关实体。为实现对用户可能感兴趣实体的高效查询,需要进行实例匹配以生成对象。

1.1 SONCA分析数据仓库

SONCA分析索引服务器(数据仓库)的内部架构采用EAV/CR模型,仓库结构分为三层,我们主要关注上层的实例层和对象层。为控制数据库大小并高效执行查询,采用了Infobrigt的RDBMS引擎。

解析器处理本地存储库的文档时,会为文档中识别出的每种实体类型在数据库的通用(与实例相关)部分创建一个实例。实例存储在数据表中,保留原始文档中关系结构的信息。实例可以很简单,如单个单词或数字,也可以很复杂,如代表出版物及其所有子实例(标题、出版年份、出版商等)的实例。

匹配结果存储在数据库服务器的特殊表中,该表存储实例(原始

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值