61、AGROVOC:多语言词库的关联数据维护、对齐与发布

AGROVOC:多语言词库的关联数据维护、对齐与发布

1. 引言

AGROVOC 是联合国粮食及农业组织(FAO)维护的多语言词库,涵盖农业、渔业、林业、环境等多个领域。自 20 世纪 80 年代开发以来,它已支持 19 种语言,每种语言平均约有 40,000 个术语。全球的研究人员、图书馆员和信息管理人员利用它对农业信息系统中的数据进行索引、检索和组织。

FAO 转向使用简单知识组织系统(SKOS)表达的关联数据,是因为这种广泛实施且标准的模型具有人类和机器可读的优势。对于图书馆员来说,词库关联后,其索引的资源也会关联起来,同时关联数据发布提供了使用 SPARQL 等标准查询语言的单点访问优势。

2. AGROVOC 模型与内容的演变
  • OWL 尝试(2004 年) :首次将 AGROVOC 引入语义网的尝试基于本体网络语言(OWL)。OWL 允许在对象和对象类之间进行丰富的领域规范,但词库不区分对象和类,这使得使用 Protégé 等编辑工具变得困难。在 OWL 模型中,概念通过 rdfs:subClassOf 组织成层次结构,“更广泛的术语”和“更窄的术语”(BT/RT)关系通过特定的 OWL 对象属性表示,每个概念由一个类和一个单例实例表示。这种建模方式导致编辑者丢失了原始的术语层次结构,且 OWL 的建模能力未得到充分利用。
  • SKOS 和 SKOS - XL(2009 年) :2009 年,W3C 推荐使用 SKOS 来表达词库资源。SKOS 对资源施加的语义比 OWL 更宽松,适合不需要形式语义和推理的情况。同时,W3C 还推荐了 SKOS - XL 扩展,用于管理标签。SKOS - XL 将标签视为一等对象,为其赋予 URI,使得可以跟踪标签的各种信息。因此,AGROVOC 从 OWL 建模转向了 SKOS - XL 建模。

在模型转变的同时,AGROVOC 的内容也进行了大规模修订,顶级概念数量减少到 25 个,层次结构得到重新组织,并添加了一些特定领域的概念关系。

3. AGROVOC 编辑维护支持:VocBench
  • 早期存储与维护 :AGROVOC 最初以关系格式存储,在关系模型中,它被视为纯粹的术语资源,使用本地标识符连接不同语言中表达相同含义的术语。数据维护通过一个基于 PHP 的 Web 应用程序进行,该应用程序连接到主数据库,但不支持编辑工作流。
  • VocBench 的发展 :随着 AGROVOC 向语义网转移,需要更合适的内容管理方式。最初的 OWL 建模使得传统本体编辑工具使用不便,且 AGROVOC 的多语言和协作性质要求更复杂的功能。因此,开发了 AGROVOC 概念服务器工作台,后来演变为通用的、符合 SKOS 的协作知识管理平台 VocBench。

VocBench 支持正式的工作流,具有变更跟踪、元素名称翻译和跨语言搜索等功能。它内部仍然依赖定制的 OWL 模型,但支持数据导入和导出到 SKOS/SKOS - XL。未来的 2.0 版本将基于 OWL ART API 抽象层和 SKOS - XL 接口提供原生的 SKOS 和 SKOS - XL 接口。

4. 从 VocBench 内部模型转换为 SKOS - XL

由于 VocBench 内部仍然使用遗留的定制 OWL 模型,而 SKOS - XL 用于将 AGROVOC 发布为关联数据,因此需要进行转换。转换过程通过逐个浏览 AGROVOC 概念并转换所有关联元素来完成,而不是采用逐三元组的转换方式,原因如下:
1. 根据模型翻译指令,同一谓词的翻译可能因上下文而异。
2. VocBench 内部使用 Protégé API 和 Protégé DB,不便于处理三元组。

具体来说,使用 Protégé API 读取遗留的 OWL 数据,使用 OWLART API 将数据转换为 NTRIPLES 和 RDFXML 文件,用于关联数据发布。

5. 发布 AGROVOC 为关联数据的技术设置

AGROVOC 的关联数据版本通过 FAO 和 MIMOS Berhad 的合作在线提供。数据存储在位于吉隆坡的高性能服务器上的 RDF 三元组存储(Allegrograph)中。通过 SPARQL 端点和实体的 HTTP 解析实现关联数据发布,使用定制的 Pubby 版本提供更易读的 HTML 表示。例如,可通过 http://aims.fao.org/ aos/agrovoc/c_330892 查看 AGROVOC 概念的关联数据可视化。

6. 将 AGROVOC 与其他资源链接

AGROVOC 已与约十种相关资源(主要是词库,已作为 RDF/SKOS 资源提供,部分也作为关联数据发布)建立了链接,还有其他链接正在进行中。链接过程如下:
1. 数据加载 :将所有考虑与 AGROVOC 对齐的数据存储库加载到本地三元组存储(Sesame)中。
2. 概念配对 :考虑所有可能的概念对,其中一个概念来自 AGROVOC,另一个来自其他词库。
3. 标签选择与相似度计算 :为每个概念选择一个首选标签(针对匹配的语言),使用常见的字符串相似度度量计算标签之间的相似度,并计算所有相似度值的算术平均值。
4. 候选匹配选择 :应用经验确定的阈值选择候选匹配,将其呈现给领域专家进行评估。
5. 验证与存储 :验证后的映射加载到存储 AGROVOC 关联数据版本的三元组存储中,使 AGROVOC 数据能够以关联数据发布的方式显示其出站链接。

以下是整个过程的 mermaid 流程图:

graph LR
    A[数据加载] --> B[概念配对]
    B --> C[标签选择与相似度计算]
    C --> D[候选匹配选择]
    D --> E[验证与存储]
7. AGROVOC 关联数据维护过程概述

目前,AGROVOC 的维护和关联数据发布涉及多个工具和数据存储。左侧是用于数据维护的工具,包括基于关系数据库的遗留 Web 工具和 VocBench。关系数据库仍然在使用,作为许多现有应用程序的主存储库,并定期与 VocBench 对应的数据存储同步。而关联数据发布的数据来自根据遗留 OWL 模型存储在 Protégé DB 中的数据转换为 SKOS - XL 的结果。

这种数据存储的重复和数据转换显然不理想,但由于许多现有应用程序依赖于遗留的关系模型,以及部分编辑者习惯使用旧工具,这些转换步骤是不可避免的。

8. 结论

AGROVOC 的维护、与其他词库的对齐和关联数据发布依赖于一个完整的发布链,涉及领域专家、术语学家、本体学家和软件开发人员等多个角色,以及 VocBench、Allegrograph、Pubby 等工具和 OWLART、Alignment API 等 API。在当前的维护过程中,历史信息管理系统和新的语义感知系统都发挥着作用。虽然一系列的转换步骤并不理想,但支持旧版本及其用户群是业务流程的必要要求。目前正在为 AGROVOC 编辑者提供培训,以推动系统的发展。

AGROVOC:多语言词库的关联数据维护、对齐与发布

9. 面临的挑战与解决方案
  • 工具使用挑战
    • 部分编辑者难适应新工具 :由于部分编辑者带宽有限或对旧工具熟悉,难以立即采用 VocBench。对于带宽有限的情况,可使用 VocBench 的本地副本,然后批量合并到主副本中;对于习惯旧工具的编辑者,培训分散在全球的用户群复杂且资源消耗大,目前正在持续提供培训以帮助他们过渡。
    • 工具兼容性问题 :VocBench 内部依赖定制的 OWL 模型,与 SKOS - XL 之间的转换存在一定难度。通过使用 Protégé API 读取遗留的 OWL 数据,再利用 OWLART API 将其转换为适合关联数据发布的 NTRIPLES 和 RDFXML 文件,解决了数据格式转换的问题。
  • 数据管理挑战
    • 数据存储重复与转换 :存在关系数据库和基于 Protégé DB 的 RDF 三元组存储两种数据存储方式,数据转换步骤较多。但由于许多现有应用程序依赖关系模型,为保证这些应用程序的正常运行,目前只能维持这种现状。未来可考虑优化数据存储结构,减少不必要的转换。
    • 数据一致性问题 :在数据转换和同步过程中,可能会出现数据不一致的情况。需要建立严格的数据验证机制,定期对数据进行检查和修正,确保不同存储方式下的数据一致性。
10. 未来发展方向
  • 工具功能优化
    • VocBench 2.0 升级 :VocBench 的下一个主要版本(2.0)将基于 OWL ART API 抽象层和 SKOS - XL 接口提供原生的 SKOS 和 SKOS - XL 接口,提高工具的通用性和易用性。
    • 增加新功能 :可考虑增加更多与关联数据处理相关的功能,如自动链接生成、数据质量评估等,以提高工作效率和数据质量。
  • 数据扩展与链接
    • 关联更多资源 :继续扩大 AGROVOC 与其他相关资源的链接,不仅限于词库,还可包括数据库、知识库等,进一步丰富关联数据云。
    • 优化链接算法 :改进链接识别过程中的算法,提高链接的准确性和效率,减少人工干预。
  • 支持新应用场景
    • 推动农业领域创新应用 :利用 AGROVOC 的关联数据,开发更多农业领域的创新应用,如智能农业信息检索、农业知识图谱构建等。
    • 跨领域应用拓展 :探索 AGROVOC 在其他相关领域的应用,如环境科学、食品科学等,实现数据的跨领域共享和利用。
11. 总结与展望

AGROVOC 的关联数据维护、对齐与发布是一个复杂的过程,涉及多个角色和工具。虽然目前面临一些挑战,如工具使用困难、数据管理复杂等,但通过不断优化工具功能、扩展数据链接和支持新应用场景,AGROVOC 将在农业及相关领域发挥更大的作用。

以下是 AGROVOC 未来发展方向的表格总结:
|发展方向|具体内容|
| ---- | ---- |
|工具功能优化|VocBench 2.0 升级,增加新功能|
|数据扩展与链接|关联更多资源,优化链接算法|
|支持新应用场景|推动农业领域创新应用,跨领域应用拓展|

graph LR
    A[工具功能优化] --> B[VocBench 2.0 升级]
    A --> C[增加新功能]
    D[数据扩展与链接] --> E[关联更多资源]
    D --> F[优化链接算法]
    G[支持新应用场景] --> H[推动农业领域创新应用]
    G --> I[跨领域应用拓展]

未来,随着技术的不断发展和应用需求的增加,AGROVOC 将不断完善和发展,为全球农业信息的管理和利用提供更强大的支持。同时,也需要持续关注用户需求,不断改进和优化相关工具和流程,以适应不断变化的环境。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值