57、农业科研资源元数据应用简档开发

农业科研资源元数据应用简档开发

1. 引言

信息通信技术(ICT)革命无疑正在改变研究的开展方式。科研出版物、数据和其他研究成果越来越多地存储在机构和联盟知识库中,研究社区之间发现、共享、交换和再利用学术信息的机会进一步推动了这些知识库的广泛发展。

像谷歌学术这样的新型搜索引擎、PubMed 这样的数据库、CiteULike 这样的引用系统以及 DOAJ 这样的索引,为大量开放学术内容提供了访问途径。然而,研究利益相关者仍需付出巨大努力才能获取满足特定需求的相关信息,并且这些工具只能覆盖研究工作中部分固有的流程和任务,如高度专业化的文献分析与对比、预印本发布、非正式反馈、不同形式的同行评估以及存档后评估等。

虚拟开放获取农业与水产养殖知识库(VOA3R)项目旨在通过开发和提供服务,将现有的开放获取知识库和学术出版物管理系统集成到一个统一的学术研究访问点,以改进欧洲农业和水产养殖研究成果的传播。VOA3R 平台致力于部署一个以社区为中心的先进集成平台,用于检索相关的开放内容和数据,该平台支持明确的学术生命周期模型和应用研究的实际任务。

元数据在开发此类先进服务的努力中起着至关重要的作用。VOA3R 的关键方面之一是重用成熟的元数据标准,并为整合现有的农业和水产养殖知识库制定特定领域的元数据简档。制定和采用标准化、一致的元数据方法将确保不同研究资源存储库和来源之间的互操作性,使内容提供者能够与平台联合,并实现无缝、透明且用户友好的研究信息访问服务。

2. 应用简档与 VOA3R 元数据方法

研究活动和过程构成了一个复杂的环境,利益相关者需要在此环境中进行互操作,这就需要对广泛的基于资源的丰富功能和服务提供支持。参与 VOA3R 联盟的知识库是在线场所,用于以数字形式收集、保存和传播机构或社区的研究智力成果,涵盖了广泛的资源,包括学术出版物(如经过同行评审前后的研究期刊文章、预印本和后印本)、科学数据集、学位论文的数字版本、研究项目报告以及正常科研和学术生活中产生的其他数字资产。

对于知识库而言,元数据是一种有价值的资产,需要与外部系统共享。在内部,知识库或其他富含元数据的系统可能只考虑自身需求。然而,在进行跨知识库内容的高效可靠共享和交换时,精心设计、特定领域且达成共识的元数据规范就成为了关键因素。

开发此类元数据规范的工作应从审查现有的成熟标准、研究其底层模型以及研究其互操作性特征和重用支持开始。用于跨领域和特定领域信息资源描述的成熟元数据标准已经存在了很长时间,例如都柏林核心(DC)元数据和 IEEE 学习对象元数据(IEEE LOM)等,这些标准为广泛的目的和业务模型提供了语义支持。

由于特定社区和应用的需求各不相同,元数据标准通常支持通过应用简档进行定制。元数据规范的应用简档在最简单的形式下,支持从元素词汇表中选择一组元数据元素的过程,可能会使用本地定义的元素扩展规范中定义的基础元素词汇表,并选择一组有用的值词汇表用于这些元素。然而,随着“一刀切”标准时代的结束,领域之间的界限变得模糊,应用简档这一术语涵盖了更广泛的定制形式,涉及从一个或多个元数据中选择元数据元素并组合成复合模式。应用简档的目的是将现有模式调整或组合成一个适合特定应用功能需求的包,同时保持与原始基础模式的互操作性。

然而,从具有不同底层抽象模型的多个元数据规范中混合和匹配元素会导致语义混淆,为应用简档旨在实现的协调工作带来重大障碍。例如,DC 和 IEEE LOM 元数据标准的不同抽象模型(基于模型理论语义的实体 - 关系或图模型与没有形式语义的抽象层次模型)会产生有问题的混合场景,这表明在使用不兼容抽象模型的元数据标准和格式之间“重用元素”的概念从根本上是有缺陷的。

因此,正确的做法是:作为开发特定领域、协调一致的元数据规范的第一步,必须确定元数据将在其框架内定义的抽象模型的性质,并寻求利用具有兼容底层模型的现有稳定规范的机会,以构建可持续的应用简档。这样,实现者就可以确保独立设计的应用程序能够正确解释组合后的整体。

VOA3R 的元数据方法的关键组成部分之一是重用与语义网原则一致且适合农业和水产养殖研究社区特定需求的现有成熟元数据标准。在此基础上,考虑到该领域的问题和最佳实践,VOA3R 元数据开发团队致力于创建一个符合新加坡框架(SF)的都柏林核心应用简档(DCAP)。

遵循都柏林核心抽象模型(DCAM),VOA3R 旨在基于资源 - 属性 - 值模型创建一个可持续且可适应的元数据架构,从代表信息包的资源传统方法转向关注资源描述的组成部分。这种方法将产生灵活且可扩展的元数据,与链接数据的语义网集成。基于抽象模型,VOA3R 应用简档将明确数据的意图和预期,从而促进研究社区内部和之间的数据共享和链接。

新加坡框架为构建和记录应用简档提供了形式化方法,包括为元数据创建者提供指导以及为元数据开发者提供明确规范。如框架中所述,DCAP 是一个包含以下部分的文档包:
- 功能需求 :描述应用简档旨在支持的功能以及不在范围内的功能。理想情况下,功能需求应满足元数据创建者、资源用户和应用开发者的需求,使最终的应用程序能够充分满足社区的需求。
- 领域模型 :使用正式或非正式的建模框架定义基本元数据实体及其之间的关系。领域模型是构建应用简档的基本蓝图。
- 描述集简档 :提供一种方法来指定元数据记录中描述和陈述的结构约束。
- 使用指南 :描述如何应用应用简档,以及所使用的属性在应用上下文中的预期用途等。
- 编码语法指南 :定义特定于应用简档的语法(如果有)。

3. VOA3R 应用简档开发流程

构建应用简档是一项复杂且具有挑战性的任务,需要一个明确的流程。除了技术开发问题外,该流程还应注重采用社区,即元数据的创建者和消费者、应用开发者、简档作者等。基于此,VOA3R 元数据架构团队建立并编排了一个四阶段的构建流程,用于开发全面的应用简档规范,该规范定义了具体任务和预期输出,并遵循和进一步完善了新加坡框架的要求。由于其通用性,该流程可应用于任何 DCAP 的开发。

以下是 VOA3R 应用简档开发流程的各阶段及任务:
| 阶段 | 任务 |
| — | — |
| 阶段 1. 领域分析与需求规范 | - 成立工作组,邀请技术和领域元数据专家参与,并吸引利益相关者社区,以确保完整识别需求并促进社区采用。
- 组织活动,审查现有的相关成熟元数据标准和方案及其用例,分析利益相关者社区的当前实践。
- 协调需求收集活动,确定应用简档应支持的功能类型。
- 制定功能需求规范。 |
| 阶段 2. 元数据设计 | - 通过 UML/实体 - 关系图设计领域模型。
- 详细描述与模型对应的应用简档元数据属性(描述集简档)。
- 推动开发所需的特定社区词汇表。
- 生成初始使用指南集。
- 组织审查和达成共识的活动。 |
| 阶段 3. 测试与验证 | - 进行自我测试和邀请测试。
- 收集示例并为应用简档中的每个属性制定一套最佳实践指南。
- 组织专家和社区对整个规范(应用简档、词汇表、最佳实践)进行审查。
- 安排由 DC 架构工作组进行兼容性测试。
- 发布最终的 DCAP。 |
| 阶段 4. 社区支持 | - 制定合规指南。
- 生成元数据映射/交叉引用以实现互操作。
- 根据评估活动结果维护和修订应用简档。 |

该流程主要遵循自上而下的方法,符合 DCAP 开发方法。然而,特定任务也基于自下而上的方法,即需要分析和考虑利益相关者现有的和应用的元数据实践。在许多情况下,还需要设计临时元数据解决方案以支持互操作性和协调相关实验。尽管这可能看起来是一项分散的活动,但它通常对于揭示所设想的应用简档的有用性、适用性和全面性非常有价值。

下面是 VOA3R 应用简档开发流程的 BPMN 模型:

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B(阶段 1. 领域分析与需求规范):::process
    B --> C(阶段 2. 元数据设计):::process
    C --> D(阶段 3. 测试与验证):::process
    D --> E(阶段 4. 社区支持):::process
    E --> F([结束]):::startend

4. 领域分析与功能需求规范

4.1 VOA3R 应用简档的利益相关者

领域分析和需求规范是一项广泛的社区任务,涉及元数据专家、服务管理者、领域专家、应用开发者以及服务的潜在最终用户。制定功能需求应从全面识别利益相关者社区以及所产生的应用简档应支持的活动开始。

VOA3R 平台旨在建立基于内容的感兴趣同行社区,终端用户可以作为内容的生产者或消费者与通过 VOA3R 可访问的联盟知识库中的内容进行交互。

内容生产者主要是研究人员和学者,但也可能是学生(作为初级研究人员),甚至是从业者和行业代表。VOA3R 平台将支持生产者识别现有内容(通过相关知识库聚合),用适当的元数据描述和标记内容,允许基于内容的协作,如向读者提供反馈,以及提供有关出版物可读性、评级和整体影响的统计信息(使用各种指标)。

内容消费者(即读者)包括从业者、学生、行业人员、政策制定者、终端消费者等,他们需要定位材料并进行研究。他们还希望了解是谁(除了如何)以及何时(基于时间的搜索)。

VOA3R 的主要创新在于它将提供一个“以社区和社交为导向”的平台,所有用户都可以在其中交流想法、协作并参与基于内容的讨论。在这个意义上,VOA3R 门户的所有成员都将有动力建立联系人网络、邀请同行、提供个人、研究和工作概况的详细信息,并通过吸引对其研究、想法等的关注以及参与在线社区、促进更多人使用门户、丰富元数据和与感兴趣的各方进行讨论来“培养”他们的真实和虚拟(在线)声誉。

上述丰富的终端用户服务只能通过设计用于实现参与知识库和来源提供的内容高效聚合的元数据基础设施来实现。因此,元数据创建者和开发者、领域专家、元数据管理员和知识库管理者构成了 VOA3R 应用简档的主要技术利益相关者群体。

4.2 VOA3R 提供者元数据实践分析

审查和利用相关工作及当前实践是确定明确需求的重要组成部分。在 VOA3R 中,应用简档的开发与实际实施任务并行进行,其中最突出的任务之一是不同提供者对内容(科学和学术研究资源)的填充和整合。在像 VOA3R 这样的知识库联盟中,这带来了一个关键挑战,即揭示和解决参与知识库的元数据协调和质量保证问题。

为此,我们启动了一项分析提供者元数据的任务,以设计一个平衡的通用元数据元素集,作为参与知识库执行项目内容填充和整合计划的互操作工具,同时也有助于制定 VOA3R 应用简档的需求。特别关注重用现有格式,以保持元数据创建工作的可管理性,并保护成员机构的投资。

最终的核心元素集主要针对提供者知识库中已经捕获的书目元数据。支持 VOA3R 平台研究相关高级服务(丰富语义)的元数据,如与研究方法、评审过程、社交互动、元数据质量、系统分类法相关的方面,以及有助于监控和管理联盟内集合及其记录的元数据,预计将在整个建模工作之后产生,并将反映在未来的扩展格式中。

为此,团队首先检查了各种内容提供者的元数据模式,并采用内容分析方法来识别相关元素。对于每个模式,提出了以下问题:
- 内部使用哪种元数据模式?
- 该模式是如何定义的?
- 哪些是推荐、强制和可选的元素?
- 是否使用了任何受控列表、权威列表或词库,它们对应的词汇表是什么?
- 存储的字符串中是否有语言指示?
- 是否有关于元数据创建和索引的政策?
- 存储了多少记录,其中与全文文档相关的记录占比是多少?
- 有哪些类型的文档和文件类型可用?

内容分析产生了一个提议的核心 VOA3R 元素,它是通过从以下命名空间中选取元素创建的:都柏林核心元数据元素集(DCMES)、IEEE LOM 元数据集合和农业元数据元素集(AgMES)。

大多数参与的知识库都公开了可以通过 OAI - PMH 收割协议消费的简单 DC 记录。在 VOA3R 内进行的初始收割实验表明,这些记录的质量较差且存在不一致性。

4.3 核心 VOA3R 元素集的构建

通过上述对内容提供者元数据模式的分析,团队构建了核心 VOA3R 元素集。具体来说,从都柏林核心元数据元素集(DCMES)、IEEE LOM 元数据集合和农业元数据元素集(AgMES)中选取元素,形成了这个具有互操作性的元素集。

以下是核心 VOA3R 元素集的构建流程:
1. 数据收集 :收集各个内容提供者的元数据模式,为后续分析做准备。
2. 内容分析 :针对每个模式提出一系列问题,如模式的使用情况、元素的定义和属性、词汇表的使用等,以确定相关元素。
3. 元素选取 :从 DCMES、IEEE LOM 和 AgMES 中选取符合要求的元素。
4. 整合与优化 :将选取的元素进行整合,形成核心 VOA3R 元素集,并根据实际情况进行优化。

这个核心元素集将作为参与知识库实现项目内容填充和整合计划的基础,有助于提高元数据的一致性和互操作性。

4.4 功能需求的进一步细化

基于对利益相关者和提供者元数据实践的分析,进一步细化了 VOA3R 应用简档的功能需求。这些需求涵盖了内容生产者和消费者的不同需求,以及平台的社区和社交功能。

内容生产者需求
  • 内容识别 :能够方便地识别现有知识库中的相关内容。
  • 元数据描述 :使用适当的元数据对内容进行准确描述和标记。
  • 协作支持 :支持基于内容的协作,如与读者的反馈互动。
  • 统计信息 :获取关于出版物可读性、评级和整体影响的统计信息。
内容消费者需求
  • 材料定位 :能够快速准确地定位所需的研究材料。
  • 时间和作者信息 :了解材料的创作时间和作者信息。
  • 社区互动 :参与基于内容的讨论,与其他用户交流想法。
平台功能需求
  • 社区建设 :建立以内容为基础的同行社区,促进用户之间的交流和协作。
  • 社交功能 :支持用户建立联系人网络、邀请同行、展示个人资料等。
  • 元数据管理 :确保元数据的质量和一致性,支持元数据的丰富和更新。

5. 元数据设计与模型构建

5.1 领域模型的设计

在完成领域分析和功能需求规范后,进入元数据设计阶段,首先要设计领域模型。VOA3R 团队通过 UML/实体 - 关系图来设计领域模型,该模型定义了基本元数据实体及其之间的关系。

领域模型的设计步骤如下:
1. 确定实体 :根据 VOA3R 平台的业务需求和功能,确定相关的实体,如研究资源、作者、机构等。
2. 定义关系 :明确实体之间的关系,如作者与研究资源的创作关系、机构与研究资源的所属关系等。
3. 建立模型 :使用 UML/实体 - 关系图工具,将实体和关系可视化,形成领域模型。

这个领域模型将作为后续元数据属性设计的基础,确保元数据能够准确反映研究资源的特征和关系。

5.2 元数据属性的详细描述

根据领域模型,详细描述了应用简档的元数据属性。这些属性对应于领域模型中的实体和关系,用于描述研究资源的各个方面。

以下是元数据属性描述的示例:
| 属性名称 | 属性描述 | 数据类型 | 是否必填 |
| — | — | — | — |
| 标题 | 研究资源的标题 | 字符串 | 是 |
| 作者 | 研究资源的作者 | 字符串列表 | 是 |
| 出版日期 | 研究资源的出版日期 | 日期 | 是 |
| 关键词 | 用于描述研究资源主题的关键词 | 字符串列表 | 否 |

通过详细描述元数据属性,可以确保元数据的一致性和准确性,提高研究资源的检索和共享效率。

5.3 社区特定词汇表的开发

为了满足农业和水产养殖研究社区的特定需求,推动了社区特定词汇表的开发。这些词汇表用于规范元数据中使用的术语和概念,提高元数据的语义表达能力。

社区特定词汇表的开发过程如下:
1. 需求收集 :收集社区成员对词汇表的需求和建议。
2. 术语筛选 :从相关的领域文献、标准和实践中筛选出合适的术语。
3. 词汇表构建 :将筛选出的术语组织成词汇表,并定义术语之间的关系。
4. 审核与发布 :邀请社区专家对词汇表进行审核,审核通过后发布使用。

社区特定词汇表的开发将有助于提高元数据的质量和互操作性,促进研究资源在社区内的共享和交流。

6. 测试与验证

6.1 测试活动的开展

在元数据设计完成后,进行了一系列的测试活动,以确保 VOA3R 应用简档的质量和稳定性。测试活动包括自我测试和邀请测试。

自我测试

开发团队对应用简档进行了内部测试,检查元数据的准确性、一致性和完整性。测试内容包括元数据的录入、查询、修改等操作,以及与现有知识库的兼容性。

邀请测试

邀请了部分利益相关者和领域专家参与测试,收集他们的反馈和意见。邀请测试的目的是从不同的角度评估应用简档的可用性和实用性,发现潜在的问题和改进点。

6.2 最佳实践指南的制定

根据测试结果,收集了大量的示例,并为应用简档中的每个属性制定了一套最佳实践指南。这些指南提供了元数据录入和使用的规范和建议,有助于提高元数据的质量和一致性。

以下是最佳实践指南的示例:
- 标题 :使用简洁明了的语言描述研究资源的主题,避免使用过于冗长或模糊的标题。
- 作者 :按照作者的贡献顺序列出作者姓名,并提供作者的联系方式或机构信息。
- 出版日期 :使用标准的日期格式,确保日期的准确性。
- 关键词 :选择能够准确反映研究资源主题的关键词,避免使用过于宽泛或无关的关键词。

6.3 专家和社区审查

组织了专家和社区对整个规范(应用简档、词汇表、最佳实践)进行审查。专家和社区成员从专业角度对规范进行评估,提出了许多宝贵的意见和建议。

审查过程中,重点关注了以下几个方面:
- 语义一致性 :确保元数据的语义表达准确一致,避免歧义。
- 实用性 :评估规范是否能够满足实际应用的需求,是否具有可操作性。
- 兼容性 :检查规范与现有元数据标准和知识库的兼容性。

通过专家和社区审查,对规范进行了进一步的完善和优化,提高了规范的质量和可靠性。

6.4 兼容性测试与最终发布

安排了由 DC 架构工作组进行兼容性测试,确保 VOA3R 应用简档与都柏林核心抽象模型(DCAM)的兼容性。测试结果表明,应用简档符合 DCAM 的要求,能够与其他基于 DC 的系统进行互操作。

在完成所有测试和审查后,发布了最终的 DCAP。这个最终版本的应用简档将作为 VOA3R 平台的元数据标准,用于研究资源的描述、传播和再利用。

7. 社区支持

7.1 合规指南的制定

为了确保社区成员能够正确使用 VOA3R 应用简档,制定了合规指南。这些指南提供了元数据录入、管理和使用的详细规则和流程,帮助社区成员遵守规范。

合规指南的主要内容包括:
- 元数据录入规范 :规定了元数据各个属性的录入要求,如数据类型、格式、长度等。
- 元数据管理流程 :描述了元数据的创建、审核、更新和删除等管理流程。
- 违规处理机制 :明确了对违反规范的行为的处理方式。

7.2 元数据映射与交叉引用

为了实现与其他元数据标准和知识库的互操作,生成了元数据映射和交叉引用。这些映射和交叉引用提供了不同元数据标准之间的对应关系,使得不同系统之间能够方便地交换和共享元数据。

元数据映射和交叉引用的创建过程如下:
1. 确定映射目标 :选择需要进行映射的其他元数据标准和知识库。
2. 分析元数据结构 :对 VOA3R 应用简档和目标标准的元数据结构进行分析,找出相似和不同之处。
3. 建立映射关系 :根据分析结果,建立 VOA3R 应用简档与目标标准之间的映射关系。
4. 验证和优化 :对映射关系进行验证和优化,确保映射的准确性和完整性。

7.3 应用简档的维护和修订

根据评估活动的结果,对 VOA3R 应用简档进行维护和修订。随着研究领域的发展和社区需求的变化,不断更新和完善应用简档,以保持其适用性和有效性。

维护和修订过程包括:
- 问题收集 :收集社区成员反馈的问题和建议。
- 分析和评估 :对问题和建议进行分析和评估,确定是否需要对应用简档进行修订。
- 修订方案制定 :根据分析结果,制定修订方案,并提交给专家和社区进行审核。
- 修订实施 :审核通过后,实施修订方案,并更新相关的文档和工具。

通过持续的维护和修订,VOA3R 应用简档能够更好地满足社区的需求,为农业和水产养殖研究资源的共享和交流提供有力支持。

综上所述,VOA3R 应用简档的开发是一个复杂而系统的过程,涉及领域分析、需求规范、元数据设计、测试验证和社区支持等多个环节。通过遵循新加坡框架,重用现有成熟元数据标准,以及充分考虑利益相关者的需求,开发出了一个具有互操作性、可扩展性和实用性的元数据应用简档,为农业和水产养殖研究资源的有效共享和传播提供了重要保障。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值