探索 Searchculture.gr 的语义丰富化方案
在文化数据聚合领域,数据的异质性是一个常见且棘手的问题。许多数据使用时间值来描述,但这些时间值由于编码、语言、粒度等因素存在高度的异质性。为了解决这一问题,我们开发了一种语义丰富化和同质化方案,以提升数据的质量和可用性。
1. 相关工作
许多数据聚合器使用语义丰富化技术来处理数据的异质性。例如,Europeana、MoRe、MINT 和 LoCloud 等聚合平台,以及 PATHS 等研究项目,都采用了自动丰富化技术,使用既定词汇表中的术语来丰富数据。然而,这些方法存在一些问题:
- 结构化字段自动丰富化 :在结构化字段(如 dc:type)上进行完全自动化的丰富化,采用“能丰富就丰富”的策略,导致丰富化覆盖率低,错误率高。
- 描述性字段自动标注 :在更具描述性的字段(如 dc:title)上使用自动标注方法,效果也相对较差。
此外,一些聚合器在时间丰富化方面也存在不足。它们要么使用时间跨度词汇表来丰富带有时期标签的项目,但会遇到上述问题;要么在符合特定日期格式的情况下,尝试对时间值进行一定程度的同质化,但无法统一处理带有时间信息的项目。
2. Searchculture.gr 的语义丰富化方案
Searchculture.gr 基于一个聚合器基础设施,包括元数据和数字文件的采集工具(OAI - PMH 采集器)、内容验证系统、数据摄入工作流平台和公共门户。其搜索引擎基于 Apache Solr 索引系统,内部数据模型与 EDM 模式兼容。最近,该聚合器增强了语义丰富化方案,具体如下