元数据与本体存储技术解析
在数据管理领域,元数据和本体的存储至关重要。下面将详细介绍相关的存储技术、方法以及标准。
1. 三元组存储与查询语言
在元数据和本体存储中,常使用SPARQL(SPARQL Protocol and RDF Query Language)查询语言。它是一种基于图的语言,与关系型的SQL、基于树的XML的XQuery有所不同。
三元组存储可以是集中式或分布式的。如果将三元组存储作为公开的SPARQL端点告知发起查询的引擎,那么SPARQL查询就可以访问这些存储。不过,目前SPARQL端点的定义尚不明确,不同的RDF三元组存储会从自身角度进行定义。
许多三元组和n元组存储宣称具有高存储容量以及高访问、查询和加载速率,部分还采用了Lehigh University Benchmark(LUBM)的测试结果。一些高端的三元组存储声称能够存储数十亿个三元组,甚至高达600亿个,但这些说法尚未得到独立验证。
常见的三元组存储示例包括:OWLIM、Garlik 4Store、AllegroGraph、Jena、Sesame、Oracle 11g、Mulgara、Semantics.Server和OpenLink Virtuoso。
2. 元数据和本体存储方法
2.1 嵌入式元数据
嵌入式元数据与它所描述的信息对象封装在一起。这种存储方式常用于描述那些难以通过自动化方法分类的电子信息对象,如数字图像、视频、音频以及一定程度上的非结构化文本。
微软和Adobe等主要软件制造商在所有文字处理和图像文件中自动嵌入一些元数据,并允许文档所有者手动添加元数据属性,如主题关键词和描述。Adobe还开发了自己的嵌入式文档元数据交换标准——可扩展元数据平台(XMP)。HTML网页的头部通常包含一些描述性元数据,如HTML版本、版权信息和主题关键词等。
嵌入式元数据的主要优点是使信息对象具有自描述性,但缺点是不同数字媒体类型之间的嵌入式元数据方法和表示方式存在差异。
2.2 目录
目录用于存储和管理描述信息对象的元数据记录。元数据目录中的记录类似于图书馆的目录卡片,而信息对象则类似于图书馆书架上的书籍。元数据目录包含有关如何定位其所描述信息对象的信息,但通常不存储这些对象的原始形式。
对于大型或复杂的元数据目录,元数据记录通常会按照分类方案进行分组,如美国国会图书馆主题词表(LCSH)方案。目录可以存储和管理几乎任何可描述事物的元数据记录,例如数据目录存储关于数据对象(如非结构化文档)的元数据记录,元数据目录存储关于元数据模式的元数据记录,本体目录存储关于本体的元数据记录。
2.3 注册中心
注册中心是一种存储和管理由注册用户提交的元数据记录的目录。被描述的信息对象通常称为注册项。注册中心通常围绕具有共同特征的信息对象(如数据和元数据对象)进行组织,例如共同的主题领域、所有者或技术。
IANA协议注册中心是围绕互联网协议主题组织的数据注册中心的示例,都柏林核心(DC)元数据注册中心是围绕产品元数据组织的元数据注册中心的示例。
2.4 存储库
存储库与注册中心的不同之处在于,它存储信息对象本身或其副本,而不仅仅是描述它们的元数据。存储库可能同时具备注册中心和存储库的功能。
存储库可以是其所存储原始信息对象的权威来源,也可以存储信息对象的副本。存储副本可以让管理员对源的检索和管理进行本地控制,但也会带来同步维护和延迟问题。
例如,NASA SWEET本体库是一个简单的本体存储库,存储原始本体内容;BioPortal和开放本体存储库则存储本体副本,并具备注册中心和存储库的功能。
2.5 分布式存储
分布式存储涉及一组称为节点的系统网络,它们共同承担存储和管理共享信息的责任。包括基于复制的数据存档(如谷歌的Big Table)、点对点系统(如BitTorrent)、面向服务的环境(如Web服务)等。
分布式存储网络使用通用协议和接口(如REST和SOAP Web服务)共享信息,其中最大的分布式存储系统是万维网。
与集中式系统相比,分布式系统在存储容量、计算能力、可扩展性和可靠性方面具有优势,且成本更低。例如,基于复制的存档通过在多个节点上复制数据来优化可扩展性和可靠性;点对点系统利用众多小型计算机的能力来集体存储和处理大量信息;Web服务使不同系统能够使用通用协议发布信息,而无需对系统进行重新设计。
然而,分布式系统也存在一些缺点,如路由、搜索、缓存和安全等系统管理问题必须基于分布式模型,这使得系统更加复杂和难以控制。
Lex Enterprise Vocabulary Services(LexEVS)术语服务器是分布式元数据存储应用的一个示例,它是LexGrid词汇交换标准的实现。
2.6 联邦存储
联邦存储是一种分布式存储方法,由参与联盟的独立对等系统组成。联盟达成了一些共同的标准,如通用接口或协议以及集成身份管理,旨在使联盟能够像单个系统一样被访问和查询。联盟参与者可以随时加入或离开联盟。
2.7 索引
索引是为了提高计算机应用程序分析、分类、搜索和检索数字信息的能力而创建的数据结构。搜索引擎和数据库应用程序经常使用索引来提高信息检索能力。
例如,倒排索引是一种将关键词与包含这些关键词的信息对象进行匹配的表结构。搜索引擎使用倒排索引快速将用户输入的搜索词与关键词匹配,并检索与这些关键词关联的信息对象,这种方法比逐个搜索每个信息对象要快得多且更高效。
以下是一个简单的倒排索引示例:
| Terms | Objects |
| — | — |
| Labrador | Object 1, Object 3, Object 2 |
| Dog | Object 2, Object 3, Object 4 |
| Breed | Object 2 |
元数据和本体可以作为关键词用于索引信息对象,它们自身也可以被索引。国家生物医学本体中心(NCBO)的BioPortal就是一个使用元数据和本体作为关键词索引项的应用示例,本章中提到的许多元数据注册中心也将元数据模式和本体作为信息对象进行索引。
2.8 相关方法
许多其他类型的应用程序也存储和使用元数据和本体,如协作工具、维基、讨论列表、注释工具和内容管理系统等。这些应用程序通常使用上述一种或多种存储方法。
2.9 语义网元数据和本体存储方法
语义网元数据和本体存储方法通常包括以下几点:
1. 使用W3C标准语言(如简单知识组织系统(SKOS)、网络本体语言(OWL)、资源描述框架(RDF)和RDF模式(RDFS))来表示元数据和本体。
2. 将元数据和本体以RDF三元组存储的形式存储,并使用语义网查询语言(如SPARQL W3C标准查询语言)进行查询。
3. 提供标准的语义网查询接口,如SPARQL端点。
扩展元数据注册中心(XMDR)和美国国家科学数字图书馆(NSDL)元数据注册中心是实现了RDF三元组存储和SPARQL查询端点的元数据注册中心示例。NSDL还使用SKOS作为其词汇编码语言。Swoogle是语义网元数据索引的示例,语义媒体维基是语义网维基的示例。
下面通过一个mermaid流程图展示元数据和本体存储方法的关系:
graph LR
A[元数据和本体存储方法] --> B[嵌入式元数据]
A --> C[目录]
A --> D[注册中心]
A --> E[存储库]
A --> F[分布式存储]
A --> G[联邦存储]
A --> H[索引]
A --> I[相关方法]
A --> J[语义网存储方法]
3. 元数据和本体存储管理相关标准
3.1 ISO/IEC 11179 信息技术——元数据注册中心(MDR)
ISO 11179是一系列元数据注册中心标准,旨在为元数据注册中心中的元数据元素的系统识别、分类、结构和命名提供全面指导。该标准分为六个部分,其中五个部分与元数据管理和存储相关:
-
Part 1: 框架
:定义了标准使用的术语,描述了标准所基于的基本概念,并提供了第2 - 6部分的上下文概述。一些基本定义包括:
- 概念:由独特特征组合创建的知识单元。
- 概念系统:根据概念之间的关系进行结构化的概念集合。
- 概念模型:代表现实世界抽象视图的数据模型。
- 关系:模型元素之间的连接。
- 对象:任何可感知或可想象的事物。
-
Part 2: 分类
:定义了管理分类方案的模型,目的是将对象与一个或多个分类方案中的概念相关联。分类方案被视为一种概念系统。
-
Part 3: 注册中心元模型
:使用统一建模语言(UML)定义了一个对象模型,该标准将其描述为概念元模型(模型的模型),旨在为元数据注册中心规定高级信息结构。
-
Part 5: 命名和识别原则
:为元数据注册中心中的“管理项”开发唯一识别方案和一致命名约定提供规则和指导。管理项可以是数据元素概念、概念域、数据元素或值域。该部分要求使用包含注册中心权限、数据和版本标识符的复合标识符,并规定唯一性范围在注册中心权限范围内。同时,定义了命名原则和最佳实践,并提供了具体的命名约定示例。
-
Part 6: 注册
:为在元数据注册中心注册管理项提供程序指导,包括标识符分配、状态级别和产品元数据。该部分不区分管理项的类型,还涉及注册后管理项的维护和管理的行政任务和角色,并定义了适用于所有类型管理项的元数据属性子集,以及每个属性的“条件性”(如必需、可选等)。
ISO 11179是一个成熟的标准,满足了大多数组织目前在元数据注册中心中存储和管理元数据的需求。通过谨慎应用,它也可以用于将本体作为管理项在元数据注册中心进行分类。然而,要以与元数据相同的粒度描述本体,需要更严格的语义方法。ISO 11179中的基本概念(如“概念模型”和“对象”)从面向对象的角度应用于元数据系统,与本体的概念有重叠但不完全匹配。ISO 11179的语义旨在供人类解释,而本体的语义旨在供机器解释,后者需要更严格的语义和知识表示解释。目前,ISO 11179联合技术委员会正在研究扩展该标准以包括本体。劳伦斯伯克利国家实验室开发了一个ISO 11179参考应用程序——扩展元数据注册中心(XMDR),作为改进符合ISO 11179的注册中心语义表示的试验平台。对ISO 11179有用的修改和扩展将作为标准更新提出。
3.2 ISO 16642 术语标记框架:受控词汇的模型(TMF)
TMF为管理多语言受控词汇提供了通用的信息结构。这种简单的层次结构可以应用于任何词汇,包括元数据模式。TMF指定了一个简单的层次包含结构,每个级别都有元数据描述。主要有四个容器级别,从外到内依次为:术语集合、术语条目、语言和术语。每个词汇都是一个术语集合,每个术语集合包含一个或多个术语条目,术语条目是一组多语言同义词的容器,每个术语条目包含一个或多个语言容器,每个语言容器包含一个或多个术语容器。可以在这四个级别中的任何一级关联嵌套的元数据描述符。
这种结构有助于促进互操作性和建立多语言元数据注册中心。在元数据注册中心的上下文中,它可以存储元数据方案、分类系统、数据字典和受控词汇之间的映射,还可以用于促进语言翻译以及在应用程序配置文件中重用元数据元素。
3.3 ISO 30042 术语库交换(TBX)
术语库交换(TBX)标准是由本地化行业标准协会(LISA)开发的用于交换结构化术语数据的标准标记语言。它是ISO 16642 TMF标准中定义的术语标记语言(TML),包括核心结构和可扩展约束规范(XCS),用于指定特定应用TML的数据类别和约束。TBX提供了一个以XML和RELAX NG编码的默认TML,采用模块化方法以在实现级别提供灵活性,以适应各种数据类别。
虽然TBX最初是为支持本地化行业交换受控词汇而设计的,但它是一个成熟的标准,具有简单灵活的结构,可以作为元数据或受控词汇交换的基础。与ISO 11179一样,其应用范围涵盖受控词汇,并可以处理本体的基本分类,但不足以描述本体的详细结构或语义。
3.4 美国国家标准协会/美国国家信息标准组织(ANSI/NISO)Z39
Z39系列标准由图书馆科学界编写和维护,其中两个标准与元数据和受控词汇管理和存储相关:
-
ANSI/NISO Z39.19 受控词汇的构建、格式和管理指南
:主要关注受控词汇的开发,同时也涉及受控词汇管理和存储的功能要求。这些要求可以在Z39.19 - 2005的第9、10、11节和附录A中找到。第9节涉及受控词汇的用户界面和显示;第10节关于受控词汇的互操作性;第11节涵盖受控词汇的构建、测试、维护和管理;附录A以表格形式总结了功能要求。
-
ANSI/NISO Z39.50 - 2003(ISO 23950)信息检索应用服务定义和协议规范
:由美国国会图书馆维护,定义了一个客户端 - 服务器应用协议,用于在远程数据库中搜索和检索信息。许多Z39.50的应用配置文件被图书馆、大学、政府机构以及内容管理和出版行业广泛使用。广域信息服务器(WAIS)应用配置文件可能是最知名的Z39.50应用配置文件。Zthes规范是Z39.50和Z39.19的应用配置文件。Synaptica Taxonomy Manager是实现Zthes应用配置文件的受控词汇管理系统。
3.5 OASIS电子业务XML(ebXML)注册中心标准
ebXML注册中心和存储库标准由一对标准组成:ebXML注册中心信息模型(ebRIM)和ebXML注册中心服务和协议(ebRSP)版本3.0。这些标准为支持Web服务的XML元数据注册中心和存储库及其服务定义了详细规范。虽然这些规范最初是为ebXML元数据标准设计的,但实际上其应用范围更广。
以下是一个表格总结这些标准的特点:
| 标准名称 | 适用范围 | 特点 |
| — | — | — |
| ISO/IEC 11179 | 元数据注册中心 | 全面指导元数据元素管理,需严格语义用于本体描述 |
| ISO 16642 TMF | 受控词汇 | 简单层次结构,促进互操作性和多语言注册中心 |
| ISO 30042 TBX | 受控词汇交换 | 成熟标准,结构灵活,可用于元数据交换 |
| ANSI/NISO Z39.19 | 受控词汇开发管理 | 关注功能要求,涵盖构建、显示等方面 |
| ANSI/NISO Z39.50 | 信息检索 | 定义客户端 - 服务器协议,应用广泛 |
| ebXML注册中心标准 | XML元数据注册中心 | 详细规范,应用范围广 |
通过了解这些元数据和本体的存储技术、方法以及相关标准,可以更好地进行数据管理和利用,提高信息检索和处理的效率。在实际应用中,需要根据具体需求选择合适的存储方法和标准,以确保数据的有效存储和管理。
4. 存储技术与标准的应用案例分析
为了更好地理解上述元数据和本体的存储技术、方法以及标准在实际中的应用,下面将通过几个具体案例进行分析。
4.1 生物医学领域的应用
在生物医学领域,数据的复杂性和多样性使得元数据和本体的管理尤为重要。国家生物医学本体中心(NCBO)的BioPortal就是一个典型的应用案例。
BioPortal使用元数据和本体作为关键词索引项,利用索引技术提高信息检索能力。它整合了大量的生物医学本体和元数据,用户可以通过关键词搜索快速定位到相关的信息对象。同时,BioPortal支持多种存储方法,如存储库存储本体副本,并具备注册中心的功能,方便用户上传和管理自己的本体。
从标准应用方面来看,BioPortal可能遵循了ISO/IEC 11179等相关标准,对元数据和本体进行规范的管理和存储。例如,在元数据的命名和识别方面,可能采用了ISO/IEC 11179 Part 5中规定的原则,确保元数据的唯一性和一致性。
以下是BioPortal的应用流程:
1. 用户访问BioPortal平台。
2. 用户输入关键词进行搜索。
3. 搜索引擎使用倒排索引等技术,将关键词与存储的元数据和本体进行匹配。
4. 系统根据匹配结果,从存储库中提取相关的信息对象。
5. 系统将搜索结果展示给用户。
4.2 互联网行业的应用
在互联网行业,分布式存储技术得到了广泛的应用。谷歌的Big Table就是一个基于复制的分布式数据存档系统。
Big Table利用分布式存储网络,将数据分散存储在多个节点上,通过通用的协议和接口进行数据共享。这种存储方式具有高可扩展性和可靠性,能够处理海量的数据。同时,分布式存储也提高了数据的访问速度,用户可以从多个节点同时获取数据。
在标准应用方面,虽然没有明确提及遵循上述的具体标准,但在数据的管理和交换过程中,可能会借鉴一些标准的思想,如数据的结构化表示和互操作性等。
以下是Big Table的存储架构示意图(mermaid格式):
graph LR
A[客户端] --> B[主节点]
B --> C[节点1]
B --> D[节点2]
B --> E[节点3]
C --> F[数据块1]
D --> G[数据块2]
E --> H[数据块3]
5. 存储技术与标准的发展趋势
随着信息技术的不断发展,元数据和本体的存储技术与标准也在不断演进。以下是一些可能的发展趋势:
5.1 融合化发展
不同的存储方法和标准可能会逐渐融合,形成更加统一和高效的存储体系。例如,分布式存储和联邦存储可能会结合,实现更大规模的数据共享和管理。同时,不同标准之间也可能会进行整合,减少标准之间的冲突和差异。
5.2 智能化应用
随着人工智能和机器学习技术的发展,元数据和本体的存储将更加智能化。例如,系统可以自动识别和分类元数据,提高数据的管理效率。同时,智能搜索技术也将得到进一步发展,能够更好地理解用户的查询意图,提供更加精准的搜索结果。
5.3 安全与隐私保护
在数据存储和管理过程中,安全和隐私保护将变得越来越重要。未来的存储技术和标准将更加注重数据的安全性,采用更加先进的加密和访问控制技术,确保数据不被非法获取和使用。
6. 总结与建议
元数据和本体的存储技术、方法以及相关标准对于数据管理和利用具有重要意义。通过合理选择存储方法和遵循相关标准,可以提高数据的存储效率、检索能力和互操作性。
在实际应用中,建议根据具体的业务需求和数据特点选择合适的存储方法。例如,如果数据量较小且结构相对简单,可以选择嵌入式元数据或目录存储;如果数据量较大且需要分布式处理,可以选择分布式存储或联邦存储。
同时,要关注标准的发展动态,及时采用新的标准和技术,以适应不断变化的业务需求。在应用标准时,要注意标准的细节和要求,确保数据的规范管理和存储。
以下是一个选择存储方法的决策表格:
| 数据特点 | 推荐存储方法 |
| — | — |
| 数据量小、结构简单 | 嵌入式元数据、目录 |
| 数据量大、需要分布式处理 | 分布式存储、联邦存储 |
| 需要高检索效率 | 索引、语义网存储方法 |
| 涉及多语言和受控词汇 | ISO 16642 TMF、ISO 30042 TBX |
总之,元数据和本体的存储是一个复杂而重要的领域,需要不断地学习和实践,以提高数据管理的水平和效率。
超级会员免费看
806

被折叠的 条评论
为什么被折叠?



