农业科研资源元数据应用配置文件开发与内容集成
在农业和水产养殖科研资源的管理与共享中,元数据起着至关重要的作用。然而,当前不同来源的元数据存在诸多问题,如质量参差不齐、应用配置文件不兼容等,这给资源的整合和服务的提供带来了巨大挑战。本文将探讨如何开发元数据应用配置文件(DCAP)以解决这些问题,并介绍农业机构知识库的内容集成流程。
1. 元数据存在的问题
简单的元数据描述成为了数据协调和提供更丰富服务的障碍。对于聚合服务而言,低质量和不一致的元数据是一个实际问题。在对提供者的模式进行分析时,发现了大量语义和句法上的不一致:
- 语义模糊 :主要集中在 <dc:contributor> 、 <dc:date> 和 <dc:alternative> 等元素上。例如,创作者和贡献者常常混淆,日期的精确语义存在歧义, <dc:alternative> 在不同情况下用于存储翻译内容、副标题和音译等不同形式的标题信息。
- 标识问题 : <dc:identifier> 在捕获全文资源、元数据记录和其他相关资源的标识符时使用方式不一致,难以消除歧义。而且简单的都柏林核心(Dublin Core)不允许指定语法编码方案,无法轻松识别使用的特定标识符方案,如URI、DOI、ISBN等。
- 句法问题 :包括使用多个 <dc:title> 元素、无法指定元素内容的语言(如翻译标题)、使用 <dc:creator> 和 <dc:publisher> 等名称元素时无法表明是否使用了标准化形式或名称是个人还是组织、使用 <dc:subject> 时无法表明是否使用了特定词汇表中的受控术语。
- 语义不一致 :为了满足托管科学/学术资源更精细的描述需求,一些知识库在元数据字段中容纳了过多不必要的信息,导致语义不一致,使得跨多个知识库实现统一的最终用户资源发现服务变得不可能。
2. 功能需求规范
VOA3R项目采用了两级方法来进行需求规范制定:
- 高级用例 :制定了一组高级用例,这些用例对于塑造VOA3R元数据格局非常有用,有助于识别与农业研究资源相关的构成实体。具体用例如下表所示:
|用例编号|用例描述|
| ---- | ---- |
|UC#1|促进农业研究工作在开放获取知识库中的描述、共享和再利用|
|UC#2|支持农业研究资源的发现|
|UC#3|支持使用现有本体和分类法对资源进行识别和分类|
|UC#4|通过支持以链接数据格式公开元数据,实现资源的语义互连|
|UC#5|将书目元数据与农业研究社区实践和活动相关的特定领域数据相结合|
|UC#6|作为使用不同元数据标准和格式的各种知识库之间的交换格式|
|UC#7|用于通过质量控制过程从不同来源知识库收集元数据到经过整理的“提炼库”中|
|UC#8|为农业研究社区提供增值服务|
- 详细功能需求 :详细列出了一系列功能需求,以捕捉和记录预期的各种复杂功能,如将资源与研究活动关联、在元数据中反映同行评审过程、表示复杂资源、版本识别、记录导航等。需求收集活动主要在利益相关者研讨会和咨询会议中进行,同时提供者的内容分析实验和协调活动也积累了重要经验。
需求通过DC Scholarly Works Application Profile(SWAP)开发团队引入的正式模板进行记录。关键是制定使用场景,明确预期应用和服务的目标、边界以及当前实践的局限性。以下是一个VOA3R AP功能需求的示例:
|功能需求|描述|使用场景|AP需求|
| ---- | ---- | ---- | ---- |
|在元数据中反映出版物/生命周期状态|需要有关资源出版物状态的元数据,涵盖知识库内(或外)可能出现的任何状态类型|一份手稿先在某个特殊服务中预存档,然后提交给期刊发表。作者在个人网站上发布提交版本。论文被期刊接受并在修订后在出版商网站上发表。出版商的版权政策允许作者所在机构将已发表论文的预印本版本纳入其收藏并提供开放获取|需要一个出版物状态元素以及丰富的词汇表,以允许表示所有可能的状态|
需求收集和记录过程增强了开发完整DCAP的决心,采用更复杂的模型,从单一和扁平的元数据描述转向更灵活、可扩展、语义丰富和可持续的元数据。
3. 元数据建模
领域模型是一种概念模型,用于识别我们要描述的实体、它们之间的关系以及有效描述实体所需的属性。它是一种通信工具,应能被技术和非技术受众理解,在不同利益相关者之间提供共享理解方面发挥着关键作用。
VOA3R AP领域建模任务从探索多种相关的书目和学术资源以及研究活动和产品相关信息的建模方法开始,考虑了以下几种模型作为基础:
- IFLA Functional Requirements for Bibliographic Records (FRBR)概念模型 :专注于书目领域的表示,使用实体 - 关系模型。定义了四个主要实体(第1组):作品(Work)、表达(Expression)、载体表现(Manifestation)和单件(Item),还有两个“代理”实体(团体和组织)以及一组“主题”实体。对于书目目录,FRBR的强大之处在于能够逻辑地分组项目,便于在一次搜索中发现特定作品的所有实例,同时区分不同的表达、载体表现和单件,并轻松导航到最合适的资源。
- Scholarly Works Application Profile (SWAP) :是一个DCAP,用于描述学术作品。学术作品被定义为独特的智力或艺术学术创作。SWAP模型简化了FRBR,使用更少的实体、关系和属性,由五个实体组成:学术作品、表达、载体表现、副本和代理。
- Common European Research Information Format (CERIF) :是一个用于可互操作研究信息系统的正式模型,围绕三个核心实体(人员、项目和组织单位)和三个结果相关实体(结果出版物、结果专利和结果产品)组织。
FRBR作为通用模型,在此基础上开发了多个与资源相关的DCAP变体(如SWAP)。VOA3R模型基于FRBR、SWAP和CERIF构建,并针对农业研究资源的特定性质和属性进行了某些修改。
VOA3R AP领域模型采用轻量级实体 - 关系模型,以UML图表示,传达以下语义:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(VOA3R资源):::process --> B(研究工作):::process
A --> C(表达):::process
A --> D(载体表现):::process
A --> E(单件):::process
F(代理):::process --> A
G(上下文):::process --> A
H(元元数据):::process --> A
- VOA3R资源 :是整个模型的核心概念,通过基于FRBR的一组实体实例化:
- 研究工作 :是独特的与研究相关的智力创作,可以是抽象的,也可以通过具体表达来体现。
- 表达 :是与研究工作类型相关的信息对象,如科学出版物、社会出版物、演示文稿、研究数据集等。
- 载体表现 :是作品表达的体现,可能表示表达在出版生命周期中产生的各种版本、替代语言版本或表达的不同组成部分。
- 单件 :是载体表现的一个实例,即资源物理形式的外观和特征以及其实际位置。
- 代理 :是影响资源生命周期(如创建、出版、传播、验证等)的个人或组织。
- 上下文 :是一个抽象实体,为研究生命周期的进一步方面提供占位符。研究研究是与产生研究资源的上下文相关的实体,包含有关研究方法、协议、变量、技术等信息。
- 元元数据 :包含集合管理所需的信息,如元数据的创建者、所有者和创建日期、与元数据相关的注释等,这些信息有助于用户确定元数据记录中声明的依据。
需要注意的是,为了便于阅读,模型图显示了VOA3R资源 - 代理和VOA3R资源 - 上下文实体之间的一般关系,在具体实现中,这些关系预计将根据代理对资源的“影响”性质实例化为更具体的关系。
4. 内容集成流程
在农业机构知识库的内容集成方面,存在诸多实际问题。不同来源的元数据应用配置文件(AP)存在不兼容问题,且元数据质量参差不齐。在农业相关内容的知识库中,不同的元数据AP差异显著,使得互连这些知识库的工作困难重重。
4.1 VOA3R项目背景
VOA3R项目旨在通过开发和提供创新的、语义丰富的服务,促进欧洲农业和水产养殖研究成果的传播。该项目要将现有的开放获取知识库和学术出版物管理系统集成到一个单一的学术研究资源访问点。为了实现这一目标,需要开发一个元数据AP(VOA3R AP),以解决不同元数据AP之间的不兼容问题,并提供高质量的元数据。
4.2 内容集成流程
为了实现知识库的内容集成,提出了以下流程和工作流:
1. 开发通用元数据AP :VOA3R项目基于内容提供者的反馈,开发了VOA3R AP,用于集成项目内的内容,并可供未来的内容提供者使用。
2. 映射和采用元数据AP :
- 对于已有知识库的内容提供者,需要将其元数据AP映射到VOA3R AP。可以选择修订或扩展其内部元数据模式,或者修改现有元数据AP,使其符合VOA3R AP的要求。
- 对于新的知识库内容提供者,可以直接采用VOA3R AP和质量保证程序。
3. 元数据富集 :在必要的情况下,对元数据描述进行富集,以满足VOA3R元数据应用配置文件的标准。
以下是该内容集成流程的mermaid格式流程图:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(开发VOA3R AP):::process --> B(已有知识库提供者):::process
A --> C(新知识库提供者):::process
B --> D(映射元数据AP):::process
C --> E(采用VOA3R AP):::process
D --> F{是否需要富集元数据?}:::process
E --> F
F -- 是 --> G(元数据富集):::process
F -- 否 --> H(完成集成):::process
G --> H
5. 总结与展望
VOA3R项目在农业和水产养殖研究资源的元数据管理和内容集成方面取得了重要进展。通过开发DCAP,解决了元数据质量和兼容性问题,为研究资源的共享和发现提供了更好的支持。
然而,仍有许多工作需要继续进行。例如,需要进一步增强领域模型,以满足更高级的元数据需求,包括捕获研究工作和研究过程生命周期的更多方面。未来还需要编制描述集配置文件,为VOA3R AP添加机器可读性,以便进行验证和评估。
总体而言,VOA3R项目为农业科研资源的管理和共享提供了一个有价值的范例,通过不断改进和完善元数据架构和内容集成流程,有望提高研究资源的利用效率和互操作性,推动农业和水产养殖领域的研究发展。
通过本文介绍的元数据应用配置文件开发、功能需求规范、元数据建模以及内容集成流程等方面的内容,我们可以看到在农业科研资源管理中,合理的元数据设计和有效的内容集成是实现资源共享和高效利用的关键。希望这些方法和思路能够为相关领域的实践提供有益的参考。
超级会员免费看

55

被折叠的 条评论
为什么被折叠?



