权威控制与用户档案表示:PACE工具与参考本体解析
1. 权威控制概述
权威控制是维护权威文件的必要手段,它结合了软件资源和人类行动。权威文件是信息系统中唯一且明确描述相应实体集的权威记录列表。在图书馆领域,传统的权威文件包括作者姓名和物品标题。如今,该问题已扩展到其他实体集,如研究机构、期刊、会议,以及用于对物品进行分类的词汇表(如主题、语言、国家)。
权威控制的重要性体现在为信息系统提供实体的认证数字表示,从而实现精确的互连、搜索和浏览功能。它是一个数据策展过程,主要目标是解决信息表示的两个重要方面:实体消歧和实体关联。实体消歧确保不同身份的实体由不同标识符的不同记录表示;实体关联则是将不同记录相互关联,表明它们是同一实体的“变体”。
权威文件的管理通常是一个半自动化过程,需要大量人力和技术成本。在处理批量记录摄入、整合多个重叠的权威文件或从无消歧的记录集启动权威文件时,问题的复杂性会显著增加。目前,虽然有一些权威控制工具,但大多是专有的、特定于应用场景的,难以获取开源和可重用的权威控制软件。
2. PACE工具介绍
PACE(可编程权威控制引擎)是一个开源的权威控制工具。它提供了以下功能的管理用户界面:
- 自定义权威文件的结构(本体)。
- 通过一组相似性函数调整权威文件的概率消歧,以检测重复和过载的候选记录。
- 通过应用记录合并和拆分操作来管理权威文件。
- 通过各种API和格式将权威文件提供给第三方消费系统。
PACE的后端基于Cassandra的分布式技术,能够提供与记录数量成线性比例的读写性能,并支持基于MapReduce的并行高效记录排序和匹配算法。其目的是
PACE工具与参考本体在权威控制中的应用
超级会员免费看
订阅专栏 解锁全文
1670

被折叠的 条评论
为什么被折叠?



