元数据集成与互操作性技术解析
在当今信息爆炸的时代,元数据的集成与互操作性对于高效的信息检索和共享至关重要。本文将深入探讨几种关键的元数据技术,包括 SRU 操作、OAI - PMH 协议、NISO 元数据搜索倡议以及语义互操作性方法。
SRU 操作
SRU(Search/Retrieve via URL)定义了一组标准信息检索过程中的操作,主要包括:
-
SearchRetrieve
:用于从客户端应用程序向远程服务器发送查询,并接收检索到的记录。
-
Scan
:搜索服务器管理的索引,获取特定术语或名称可用的文档或记录数量。
-
Explain
:获取关于服务器特性、其数据库以及服务器用于发送答案的元数据模式的信息。
对于这些服务,定义了请求和响应消息,消息中需包含参数。以下是一个通过 SOAP 请求 SearchRetrieve 操作的示例:
<SOAP:Envelope
xmlns:SOAP="http://schemas.xmlsoap.org/soap/envelope/">
<SOAP:Body>
<SRW:searchRetrieveRequest xmlns:SRW="http://www.loc.gov/srw">
<SRW:version>1.1</SRW:version>
<SRW:query>(dc.author exact "unamuno")</SRW:query>
<SRW:startRecord>1</SRW:startRecord>
<SRW:maximumRecords>10</SRW:maximumRecords>
<SRW:recordSchema>info:srw/schema/mods</SRW:recordsSchema>
</SRW:searchRetrieveRequest>
</SOAP:Body>
</SOAP:Envelope>
请求中包含了 SRU 特定的数据,如协议版本、查询内容、要检索的记录数量以及结果所需的元数据模式。不使用 SOAP 的 SRU 请求类似如下:
http://z3950.loc.gov:7090/voyager?version=1.1&operation=searchRetrieve&query=unamuno&maximumRecords=10&recordSchema=mods
两种请求的响应均为包含检索记录元数据的 XML 文档。SRU 不与特定的元数据标准绑定,结果可根据用户请求和服务器支持的能力以任何元数据模式提供。
OAI - PMH 协议
OAI - PMH(Open Archives Initiative — Protocol for Metadata Harvesting)是用于自动化收集网络分布式资源元数据记录的技术协议。它使用 HTTP 作为传输协议,XML 对元数据进行编码,便于处理。
该协议是开放存档倡议(OAI)的一部分,OAI 的目标是开发和推广互操作性标准,促进内容的有效传播。OAI - PMH 是一些被称为“开放存档”的存储库的基础,作者可以在开放存档中轻松发布其贡献,避免学术期刊耗时的评审过程。
OAI - PMH 协议的第一个稳定版本是 2.0,于 2002 年 6 月发布。它建立了一组请求和响应,用于自动收集元数据记录,并规定了元数据的编码方法。其采用元数据收集过程,将元数据从 Web 服务器收集并聚合到集中式数据库,而不是采用分布式搜索方法。
协议支持两种过滤元数据记录的标准:
-
最后修改日期
:确保只收集自上次收集器与服务器交互以来创建或修改的记录。
-
集合
:用于按主题或其他标准对元数据记录进行分类。
收集器定期检查远程站点的 URL,下载包含元数据记录的 XML 文件,然后处理该文件以提取元数据并写入数据库。管理中央数据库的机构需为最终用户提供搜索界面。
OAI - PMH 协议定义了六个操作(“动词”):
-
Identify
:请求存储库的描述。
-
ListMetadataFormats
:请求数据提供者支持的元数据格式列表。
-
ListSet
:请求数据提供者管理的用于分类元数据记录的集合。
-
ListIdentifiers
:请求元数据记录的头部(非完整记录)。
-
ListRecords
:请求完整的元数据记录集(按日期或集合过滤)。
-
GetRecord
:检索特定记录。
以下是一个 ListRecords 请求的示例及相应的响应:
请求:
http://www.proveedordatos.com/oai-script?verb=ListRecords&metadataPrefix=oai_dc&set=biology
响应:
<?xml version="1.0" encoding="UTF-8"?>
<OAI-PMH
xmlns="http://www.openarchives.org/OAI/2.0/"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
<responseDate>2002-06-01T19:20:30Z</responseDate>
<request verb="ListRecords" from="1998-01-15" metadataPrefix="oai_rfc1807">
</request>
<ListRecords>
<record>
<header>
<identifier>oai:arXiv.org:hep-th/9901001</identifier>
<datestamp>1999-12-25</datestamp>
<setSpec>physics:hep</setSpec>
<setSpec>math</setSpec>
</header>
<metadata>
<rfc1807>
<bib-version>v2</bib-version>
<id>hep-th/9901001</id>
<entry>January 1, 1999</entry>
<title>Investigations of Radioactivity</title>
<author>Ernest Rutherford</author>
<date>March 30, 1999</date>
</rfc1807>
</metadata>
</record>
</ListRecords>
/OAI-PMH>
收集的元数据记录包含一个头部和一个封装特定元数据词汇表编码的元数据的元素。协议强制支持简单的 Dublin Core,但也可使用其他元数据模式,如 rfc1807、MARC XML 或 oai_marc,不过在实际应用中,Dublin Core 是首选。
NISO 元数据搜索倡议
2006 年,NISO 发布了其元数据搜索倡议(始于 2003 年)的结果,并为搜索远程基于 Web 资源的技术协议实现者提供了指南。该协议 Metadata XML Gategay(MXG)基于美国国会图书馆的 SRU。其目标是标准化联合搜索应用程序与内容提供者之间的元数据传输。联合搜索工具接收用户查询,将其转发给多个内容提供者,并在获得结果后以聚合的单一列表显示。与 SRU 一样,NISO 提出的协议不限制元数据模式的使用,任何模式都可用于将结果从内容提供者传输到元搜索应用程序。
语义互操作性方法
实现信息服务之间完全互操作性的最后一步涉及元数据的语义层。以下介绍几个关键项目和倡议。
Schemas 项目
Schemas 项目于 2000 年启动,为期两年。参与者包括普华永道卢森堡公司(PwC)、匈牙利研究机构 MTA SZTAKI、UKOLN(基于巴斯大学)和弗劳恩霍夫协会等。该项目的目标之一是创建一个在线注册表,使软件开发人员和从业者能够轻松找到现有的元数据模式,并在自己的开发和项目中重用它们。
项目取得的重要成果之一是编制了一个词汇表,澄清了元数据管理和研究倡议中常见的一些关键术语的含义:
-
命名空间
:指声明特定模式的元数据术语和词汇表的文档或规范,定义了元数据系统接受的元素集、其标识符、定义以及它们之间的关系。
-
模式(schemas)
:不同的用法包括组成元数据系统的一组术语(其词汇表),以及使用特定编码方法序列化元数据记录。
-
方案(schemes)
:指特定元素接受的值集。
-
应用程序配置文件
:指组织对现有元数据模式进行的定制,以方便在特定上下文中使用。配置文件应包含使用说明、元数据元素的使用建议以及它们接受的值列表。
Schemas 项目还制定了一组使用 RDF 模式正式记录元数据配置文件的建议,使用 RDF 表达元数据配置文件可以实现元数据配置文件的自动收集,类似于 OAI。同时,也建议使用 RDF 对元数据模式或命名空间的特征进行编码,并为 Dublin Core 元数据模式完成了详细的业务案例。
该项目部分实现了元数据注册表和相关工具,基于 OCLC 开发的可扩展开放 RDF(EOR)工具包和之前的 DESIRE 倡议的工作,作为对讨论的各个方面的概念验证。
CORES 项目
CORES 项目于 2002 年 5 月启动,计划持续 15 个月,是 Schemas 项目的延续。它在欧洲委员会的 IST 计划的元数据互操作性领域开展。其目标是“在语义 Web 框架内构建元数据标准之间的语义桥梁”,并“就共享语义的方法达成共识,使现有标准能够在集成的、机器可理解的语义 Web 环境中协同工作”。
为实现这一目标,CORES 建立了一个标准互操作性论坛,并于 2002 年 11 月 18 日在布鲁塞尔举行了会议。会议的重要结论是认识到需要一种在全球 Web 环境中唯一标识元数据元素的方法,选择了 URIs(统一资源标识符)。使用 URIs 可以避免资源和元数据命名的歧义,并且确保语言独立性,因为可以在用户界面级别为这些 URIs 分配不同语言的翻译。
CORES 项目还创建了一个元数据注册表,组织可以在其中声明元数据词汇表、模式和配置文件。该注册表于 2003 年初完成,目前仍可通过合作伙伴 Sztaki 的网站访问:http://cores.dsd.sztaki.hu/ 。注册表支持浏览和搜索元数据词汇表、元素定义、编码方法、负责维护的机构数据以及特定项目的配置文件和改编。同时,开发了一个模式创建和注册工具来支持元数据模式的注册过程。
从 Schemas 和 CORES 这两个早期项目可以得出,元数据集成不仅需要在语义层面实现兼容性,还需要在语法层面实现兼容性。建立元数据系统之间的共同基础(共同语法)将有助于定义不同元数据系统之间的等价关系,这在处理复杂的 XML 文档时尤为重要。使用资源描述框架(RDF)规范可以部分实现这一目标。
综上所述,这些元数据技术和项目在元数据的集成与互操作性方面发挥着重要作用,为信息的高效检索和共享提供了有力支持。随着技术的不断发展,元数据的管理和应用将更加完善,为各个领域的信息交流带来更多便利。
元数据集成与互操作性技术解析
技术对比与分析
为了更清晰地了解上述各项元数据技术的特点和适用场景,下面通过表格进行对比分析:
| 技术名称 | 主要用途 | 传输协议 | 元数据编码 | 操作类型 | 特点 |
| — | — | — | — | — | — |
| SRU | 标准信息检索 | 可结合 SOAP 或直接使用 URL | XML | SearchRetrieve、Scan、Explain | 不绑定特定元数据标准,灵活提供结果 |
| OAI - PMH | 自动化收集网络分布式资源元数据 | HTTP | XML | Identify、ListMetadataFormats、ListSet、ListIdentifiers、ListRecords、GetRecord | 采用元数据收集到集中数据库的方式,支持过滤标准,操作丰富 |
| MXG(基于 SRU) | 联合搜索应用与内容提供者间元数据传输 | - | - | - | 不限制元数据模式使用 |
操作流程对比
-
SRU 操作流程 :
- 客户端根据需求构建包含协议版本、查询内容、记录数量、元数据模式等参数的请求。
- 通过 SOAP 或 URL 将请求发送到远程服务器。
- 服务器处理请求,返回包含检索记录元数据的 XML 文档。
-
OAI - PMH 操作流程 :
- 收集器定期检查远程站点 URL,根据过滤标准(最后修改日期、集合)筛选元数据记录。
- 下载包含元数据记录的 XML 文件。
- 处理 XML 文件,提取元数据写入集中式数据库。
- 管理中央数据库的机构为用户提供搜索界面,用户通过发送相应操作请求获取元数据信息。
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B(客户端构建 SRU 请求):::process
B --> C{选择传输方式}:::decision
C -->|SOAP| D(通过 SOAP 发送请求):::process
C -->|URL| E(通过 URL 发送请求):::process
D --> F(服务器处理请求):::process
E --> F
F --> G(服务器返回 XML 响应):::process
G --> H([结束]):::startend
I([开始]):::startend --> J(收集器检查 URL):::process
J --> K(根据过滤标准筛选记录):::process
K --> L(下载 XML 文件):::process
L --> M(处理 XML 文件提取元数据):::process
M --> N(写入集中式数据库):::process
N --> O(提供搜索界面):::process
O --> P(用户发送操作请求):::process
P --> Q(获取元数据信息):::process
Q --> R([结束]):::startend
实际应用案例分析
学术资源整合场景
在学术领域,存在大量的电子资源分散在不同的数据库和存储库中。利用 OAI - PMH 协议可以实现这些资源元数据的自动收集和整合。例如,某高校图书馆希望整合多个学术数据库的资源元数据,以便为师生提供一站式的搜索服务。
1.
配置收集器
:图书馆管理员设置收集器定期检查各个学术数据库的 URL,根据最后修改日期和学科集合(如物理学、化学等)过滤元数据记录。
2.
下载与处理
:收集器下载包含元数据的 XML 文件,将其处理后写入图书馆的中央数据库。
3.
提供服务
:图书馆为师生提供搜索界面,师生可以通过发送 ListRecords 等操作请求,获取所需的学术资源元数据。
软件开发中的元数据管理
在软件开发过程中,SRU 可用于实现高效的信息检索。例如,一个软件开发团队开发了一个代码管理系统,其中包含大量的代码模块和相关文档。团队成员可以使用 SRU 进行快速搜索:
1.
构建请求
:成员根据搜索需求,构建包含查询内容(如代码模块名称、功能描述等)、记录数量、元数据模式的 SRU 请求。
2.
发送请求
:通过 URL 或结合 SOAP 将请求发送到代码管理系统的服务器。
3.
获取结果
:服务器处理请求后,返回包含检索到的代码模块元数据的 XML 文档,成员可以快速定位所需的代码资源。
未来发展趋势
随着信息技术的不断发展,元数据集成与互操作性技术也将不断演进。以下是一些可能的发展趋势:
-
与新兴技术融合
:元数据技术可能会与人工智能、大数据、区块链等新兴技术融合。例如,利用人工智能技术对元数据进行智能分析和挖掘,发现潜在的关联和价值;借助区块链技术确保元数据的安全性和不可篡改。
-
语义互操作性的深化
:未来将更加注重元数据语义层的互操作性,进一步完善语义桥梁的构建,使不同元数据标准之间能够更好地协同工作,实现更高效的信息共享。
-
标准化的加强
:随着元数据技术的广泛应用,对标准化的需求将更加迫切。相关组织可能会进一步完善现有的标准,制定更多统一的规范,以促进元数据的集成和互操作。
总结与建议
通过对 SRU、OAI - PMH、MXG 等元数据技术以及 Schemas、CORES 等项目的介绍和分析,我们可以看到这些技术和项目在元数据集成与互操作性方面发挥了重要作用。在实际应用中,用户应根据具体需求选择合适的技术:
- 如果需要进行灵活的信息检索,且不希望受特定元数据标准的限制,SRU 是一个不错的选择。
- 对于网络分布式资源元数据的自动化收集和整合,OAI - PMH 具有明显的优势。
- 在联合搜索应用场景中,MXG 可以实现元数据的标准化传输。
同时,为了更好地实现元数据的集成与互操作性,建议在项目实施过程中注重语义层和语法层的兼容性,积极采用 RDF 等规范,促进不同元数据系统之间的等价关系定义。用户还可以关注元数据技术的发展趋势,及时引入新兴技术和标准化成果,提升元数据管理和应用的水平。
总之,元数据集成与互操作性技术是信息时代不可或缺的一部分,它们将为各个领域的信息交流和共享提供有力支持,推动信息技术的不断发展。
超级会员免费看

被折叠的 条评论
为什么被折叠?



