26、探索 Searchculture.gr 的语义丰富化方案

探索 Searchculture.gr 的语义丰富化方案

在文化数据聚合领域,数据的异质性是一个常见且棘手的问题。许多数据使用时间值来描述,但这些时间值由于编码、语言、粒度等因素存在高度的异质性。为了解决这一问题,我们开发了一种语义丰富化和同质化方案,以提升数据的质量和可用性。

1. 相关工作

许多数据聚合器使用语义丰富化技术来处理数据的异质性。例如,Europeana、MoRe、MINT 和 LoCloud 等聚合平台,以及 PATHS 等研究项目,都采用了自动丰富化技术,使用既定词汇表中的术语来丰富数据。然而,这些方法存在一些问题:
- 结构化字段自动丰富化 :在结构化字段(如 dc:type)上进行完全自动化的丰富化,采用“能丰富就丰富”的策略,导致丰富化覆盖率低,错误率高。
- 描述性字段自动标注 :在更具描述性的字段(如 dc:title)上使用自动标注方法,效果也相对较差。

此外,一些聚合器在时间丰富化方面也存在不足。它们要么使用时间跨度词汇表来丰富带有时期标签的项目,但会遇到上述问题;要么在符合特定日期格式的情况下,尝试对时间值进行一定程度的同质化,但无法统一处理带有时间信息的项目。

2. Searchculture.gr 的语义丰富化方案

Searchculture.gr 基于一个聚合器基础设施,包括元数据和数字文件的采集工具(OAI - PMH 采集器)、内容验证系统、数据摄入工作流平台和公共门户。其搜索引擎基于 Apache Solr 索引系统,内部数据模型与 EDM 模式兼容。最近,该聚合器增强了语义丰富化方案,具体如下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值