元数据集成与互操作性技术解析
1. 电子资源标识问题及解决方案概述
在访问电子信息时,基于网络的资源易变性是主要问题之一。因为网页链接和 URL 依赖于目标网络服务器中资源的物理位置,一旦资源位置改变,链接就会失效。例如,URL
http://www.uc3m.es/cources/resources_e.pdf
指向
www.uc3m.es
服务器上
courses
文件夹中的
resources_e.pdf
文件。若网站管理员重命名该文件夹或移动文件,指向此资源的链接将无法工作。
为解决这一问题,提出了不同方法,以确保电子资源在网络中有唯一、全局的标识符,且该标识符不依赖资源的物理位置。这些标识符是大多数元数据管理项目的基础,重要的方法包括 DOI(数字对象标识符)、PURL(持久 URL)和 OpenURL。
2. 主要的资源标识方法
2.1 DOI(数字对象标识符)
- 目的 :为任何电子资源分配唯一、持久、全局的标识符,该标识符不依赖文档在网络服务器中的物理位置。
- 起源 :源于 1997 年美国国家研究计划公司(CNRI)的 Handle System 项目。
-
工作原理
:
- 电子文档被分配一个唯一、全局且持久的 DOI 标识符,链接电子资源时使用 DOI 而非 URL。
-
第三方创建指向已分配 DOI 的资源链接时,使用类似
http://dx.doi.org/10.1038/35057062的链接。
-
DOI 链接组成
:
| 组成部分 | 说明 | 示例 |
| ---- | ---- | ---- |
| 中间服务器 | “DOI 注册表”或“句柄系统” |dx.doi.org|
| 前缀 | 标识发布电子资源的实体 |10.1038|
| 后缀 | 标识发布者提供的所有文档集中的电子资源 |35057062| - 工作流程 :
graph LR
A[用户点击 DOI 链接] --> B[请求重定向到中间服务器]
B --> C[中间服务器查询数据库获取实际 URL]
C --> D[中间服务器将用户重定向到发布者网站]
D --> E[显示文档]
- 指向 DOI 的链接不直接重定向到文档所在的网络服务器,而是先到中间服务器。
- 中间服务器接收并处理请求,从数据库获取对应 DOI 的实际 URL。
- 出版商负责更新数据库中的信息,若 URL 改变,需在 DOI 注册表中更新。
- 最后中间服务器将用户重定向到发布者网站显示文档。
- 优势 :与基于 URL 的链接模型相比,若资源物理位置改变,只需通知中间服务器,无需更新包含该资源链接的页面。目前,学术内容的主要出版商广泛使用 DOIs,如 Springer、Elsevier 和 McGraw - Hill 等数据库会显示文章的 DOIs。
2.2 PURL(持久 URL)
这是在线计算机图书馆中心(OCLC)为解决网页链接易变性问题提出的方案。虽不如 DOI 流行,但也需要一个中间服务器来处理链接请求,将持久 URL 转换为实际 URL 并将用户重定向到该 URL。PURL 标识符曾用于 OCLC 的互联网编目项目。OCLC 分发启用中间 PURL 服务器的软件,在编写本文时,可从
http://www.oclc.org/research/projects/purl/download.htm
免费下载。
2.3 CrossRef 项目
CrossRef 并非资源识别的技术方法,而是大型编辑公司发起的项目,旨在促进其出版物之间超文本链接的创建。参与者包括科学、技术和医学(STM)领域的公司,一篇文章通常包含对其他出版商文章的引用和链接。
-
参与方
:包括国际出版商链接协会(PILA)的约 148 家出版商,管理着 6000 多种期刊,以及图书馆和图书馆联盟。
-
参与方式
:
- 出版商使用 DOI 来引用文章(包括自己期刊和其他方出版的文章)。
- 需要一个集中数据库来定位文章的 DOIs,可在其中查找特定期刊某一卷和某一期发表的文章。
- 出版商更新该数据库,存储文章的基本元数据、DOIs 以及解析 DOI 所需的 URL。
-
优势
:出版商参与 CrossRef 项目可提高其出版物的可见性,因为其他出版商可创建指向其内容的链接,增加研究人员访问其内容的可能性。
2.4 OpenURL
OpenURL 及相关的链接解析器软件应用旨在解决电子资源访问中的特定问题。电子资源(主要是电子期刊)通过不同数据库或包分发,同一电子期刊可能由同一出版商、分销商或聚合商以不同包形式分发,不同用户通过不同网关或数据库对电子期刊的访问权限也可能不同。
-
解决的问题
:
- 合适副本问题 :用户可通过不同数据库和网关访问同一资源,需将其引导至最适合的资源副本。
- 异构电子资源导航问题 :图书馆订阅的数据库可能只包含文章的元数据和摘要,也可能订阅了部分期刊的全文。用户应能从参考数据库的结果列表中一键访问订阅文章的全文,而无需额外操作。
-
解决方案
:
- 1999 年,比利时甘特大学的 H. Van de Sompel 开发了一种基于计算机的解决方案,即“链接解析服务器”或“机构服务组件”。
- 该软件作为中间层,处理用户请求,如询问某篇文章可用的服务、是否有订阅可访问全文、图书馆是否有该期刊的印刷版等。
- 链接解析器通过检查内部数据库,向用户显示包含该文章相关服务的网页,提供如下载全文的服务链接、图书馆中期刊印刷版的标识或馆际互借请求表单等。
- 该开发成果演变成了 SFX 软件,后被 ExLibris 公司收购并负责维护和发展,其他软件提供商也实现并支持该模型。
-
链接解析器技术组件
:
- 在线信息服务:用户可从中向链接解析器请求特定出版物或文章的可用服务信息。
- 链接解析器:接收请求,识别可用服务并生成结果网页。
- 数据库:链接解析器可访问该数据库,获取每个出版物的可用服务列表,通常是链接解析器软件的一部分。
- 多个在线信息服务:提供链接解析器识别出的服务。
-
OpenURL 标准
:用于在网络上传输特定对象的元数据,将用户感兴趣的文章元数据从参考数据库传输到链接解析器。它于 1999 年设计,2001 年提交给美国国家信息标准组织(NISO)进行标准化,2005 年被批准为 Z39.88 标准。例如:
-
http://sfxserver.uni.edu/sfxmenu?issn=12345678&date=1998&volume=12&issue=2&spage=134请求链接解析器提供 ISSN 为 12345678 的期刊在 1998 年第 12 卷第 2 期、第 134 页开始的文章的可用服务。 -
http://sfxserver.uni.edu/sfxmenu?id=doi:123/345678使用 DOI 请求链接解析器提供该文章的可用服务。
-
-
操作步骤
:
- 安装链接解析器软件作为图书馆 IT 基础设施的一部分(也可使用托管链接解析器)。
- 信息服务提供商在搜索结果页面提供指向链接解析器的超链接,这些链接需符合 OpenURL 规范。
- 链接解析器根据信息服务提供商提供的具体设置进行配置,以构建显示给最终用户的 URL。目前,大多数信息服务提供商和数据库支持图书馆定制搜索结果页面以指向链接解析器,如 Gale Group、GoogleScholar 等。
3. 技术互操作性方法
从技术角度来看,网络环境下的元数据互操作性由 SOAP 和 RESTful 网络服务等技术支持。基于这些方法,也有专门为图书馆开发的解决方案。下面将介绍一些相关的重要举措。
3.1 Web - 服务方法:SRU
在图书馆领域,XML 的应用不仅限于电子文档和元数据记录的编码。基于 XML 的网络服务是实现网络中软件应用程序互操作性的首选方法。SRU 技术协议是 Z39.50 标准发展的结果。
-
协议定义
:该协议定义了网络中两台计算机在信息检索过程中的交互方式,包括客户端计算机向服务器发送的消息、服务器的响应以及消息序列化的编码方式。
-
发展背景
:SRU 是在 Z39.50 国际下一代(ZING)倡议的背景下开发的,目的是使 Z39.50 适应网络环境。Z39.50 是美国国家标准协会(ANSI)发布的广泛实施的标准,其等效的 ISO 标准是 ISO 23950:1998。Z39.50 的开发始于 80 年代初,它为两台计算机系统之间的信息检索过程提供了模型,规定了客户端可以向服务器发送的请求以及服务器应提供的响应。
-
ZING 项目
:2001 年,为了使 Z39.50 适应网络技术和标准,ZING 项目启动,由美国国会图书馆领导,OCLC、牛津大学、利物浦大学、IndexData 和荷兰皇家图书馆等参与。ZING 开发了三条研究路线:SRU 和搜索/检索网络服务(SRW)协议以及通用查询语言(CQL)。
-
SRU 和 SRW
:描述了两台计算机之间的信息检索过程、服务器应提供的服务以及要交换的消息的结构和内容。SRU 在目的和底层模型上与 Z39.50 相当,主要区别在于新方案使用了 http 协议和 XML 消息。包含搜索结果的响应以 XML 格式发送,可以使用不同的元数据模式,如都柏林核心、MARCXML 等。
-
CQL
:是一种查询语言,规定了嵌入 SRU 和 SRW 请求中的查询语法。CQL 支持不同类型的查询,具体如下表所示:
| 查询类型 | 说明 |
| ---- | ---- |
| 简单查询 | 包含一个术语或句子,可选择进行截断 |
| 布尔查询 | 使用 AND、OR 和 NOT 运算符组合术语 |
| 邻近查询 | 检索包含相隔最多特定数量的单词、句子或段落的术语的记录 |
| 限定搜索 | 将查询限制在特定字段、元数据项或索引上 |
-
其他相关举措
:ZING 还开发了其他举措,如 Z39.50 面向对象模型(ZOOM)或 ZeeRex。ZOOM 指定了构建 Z39.50 应用程序的应用程序编程接口(APIs)。ZeeRex 于 2002 年启动,旨在简化 Z39.50 中的解释操作(用于提供信息检索服务的描述)。
-
版本发展
:SRW、SRU 和 CQL 的第一个版本于 2002 年 11 月发布,经过九个月的测试。2004 年 2 月发布了 1.1 版本,2007 年发布了 1.2 版本。如今,该协议仍然有效,虽然术语有所变化,ZING 和 SRW 不再使用,SRU 指的是基于 REST 和基于 SOAP 的两种协议变体。自 2007 年以来,SRU 的发展与 OASIS 搜索网络服务技术委员会相关,致力于开发 2.0 版本,该版本将 SRU 绑定到一个抽象协议定义,为网络上的搜索和检索服务提供模型。另一个协议 OpenSearch 也在发展中。
下面是 SRU 信息检索过程的 mermaid 流程图:
graph LR
A[客户端发起查询请求] --> B[请求通过 SRU 协议发送到服务器]
B --> C[服务器接收并处理请求,使用 CQL 解析查询]
C --> D[服务器在数据库中进行搜索]
D --> E[服务器将搜索结果以 XML 格式返回给客户端]
综上所述,电子资源标识和元数据集成与互操作性技术在网络信息检索和利用中起着至关重要的作用。DOI、PURL、CrossRef 项目、OpenURL 等为解决电子资源的标识和访问问题提供了有效的方案,而 SRU 等技术则促进了不同软件应用程序之间的互操作性,使得信息的共享和利用更加高效和便捷。这些技术的不断发展和完善将进一步推动网络信息领域的发展。
超级会员免费看
176万+

被折叠的 条评论
为什么被折叠?



