26、探索 Searchculture.gr 的语义丰富化方案

最新推荐文章于 2025-07-16 09:43:55 发布

火锅TCP

最新推荐文章于 2025-07-16 09:43:55 发布

阅读量52

点赞数

CC 4.0 BY-SA版权

分类专栏：元数据与语义研究：从理论到实践文章标签： Searchculture.gr 语义丰富化数据异质性

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/149388425

元数据与语义研究：从理论到实践专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索 Searchculture.gr 的语义丰富化方案

在文化数据聚合领域，数据的异质性是一个常见且棘手的问题。许多数据使用时间值来描述，但这些时间值由于编码、语言、粒度等因素存在高度的异质性。为了解决这一问题，我们开发了一种语义丰富化和同质化方案，以提升数据的质量和可用性。

1. 相关工作

许多数据聚合器使用语义丰富化技术来处理数据的异质性。例如，Europeana、MoRe、MINT 和 LoCloud 等聚合平台，以及 PATHS 等研究项目，都采用了自动丰富化技术，使用既定词汇表中的术语来丰富数据。然而，这些方法存在一些问题：
- 结构化字段自动丰富化 ：在结构化字段（如 dc:type）上进行完全自动化的丰富化，采用“能丰富就丰富”的策略，导致丰富化覆盖率低，错误率高。
- 描述性字段自动标注 ：在更具描述性的字段（如 dc:title）上使用自动标注方法，效果也相对较差。

此外，一些聚合器在时间丰富化方面也存在不足。它们要么使用时间跨度词汇表来丰富带有时期标签的项目，但会遇到上述问题；要么在符合特定日期格式的情况下，尝试对时间值进行一定程度的同质化，但无法统一处理带有时间信息的项目。