图书馆数据转换与文本修正模式提取综述
在当今数字化时代,图书馆数据的转换以及文本的修正处理变得愈发重要。本文将围绕图书馆遗留记录转换为关联数据(LLD)的实践,以及从专家修订语料库中自动提取修正模式这两个关键内容展开探讨。
图书馆遗留记录转换为关联数据
LLD的标准与要求
LLD的标准有诸多方面。数据应使用多种语言,能被其他数据集使用,可长期访问,由可信组织发布,拥有持久的URL,并具备版本控制策略。除了受欢迎程度外,长期可行性、权威来源和相关性也是LLD的重要标准。
为了实现数据的互操作性,传统上会发布和维护可信的元数据注册表,例如开放元数据注册表、RDA注册表和NSDL元数据注册表。图书馆需要一个由权威组织提供的、基于各种标准(如AAT、书目本体、Dublin Core术语等)的LLD术语可信元数据注册表。如果LLD是推动图书馆遗留记录融入语义网的重要途径,那么就需要持续收集、创建和维护由元数据元素集、值词汇表和概念参考模型/本体组成的可信注册表,以满足相关标准并为未来的互操作性铺平道路。
1 - 1映射原则的局限性
在数字图书馆领域,Dublin Core定义的1 - 1映射原则被广泛接受。然而,在实际应用中,该原则并非完全适用。例如,在Europeana的LOD数据试点项目中,由于数据可应用于各种资源,导致聚合网络复杂,同一数据可能使用过多不同的术语。此外,英国国家书目(BL’s BNB)在LLD中也使用了来自不同标准的多个术语。因此,“上下文”可能是选择合适术语的关键因素,需要一个上下文映射原则及其决策规则来判断和选择LLD的标准和术语。
LLD的长期保存
L
超级会员免费看
订阅专栏 解锁全文
947

被折叠的 条评论
为什么被折叠?



