元数据与本体存储技术全解析
1. 上层或基础本体标准
在定义标准上层本体方面,有许多正在进行的举措。21世纪初启动并在过去五年内结束的两个项目,分别是IEEE标准上层本体工作组(SUO WG)和Wonder Web。
1.1 IEEE标准上层本体工作组(SUO WG)
IEEE SUO WG是由IEEE标准协会运作、IEEE计算机协会标准活动委员会赞助的标准制定工作。该工作组提出了三个候选上层本体:
- 建议的上层合并本体(Suggested Upper Merged Ontology,SUMO)
- 上层Cyc本体(Upper Cyc Ontology,UCO)
- 信息流框架(Information Flow Framework,IFF)
1.2 Wonder Web
Wonder Web是一个由大学和行业组成的项目联盟,与DARPA DAML计划和W3C合作。它定义了一个基础本体库,涵盖了广泛的应用领域,旨在作为开发更详细领域本体的基础。目前存在三个模块:DOLCE、OCHRE和BFO。此外,还有其他提出的上层(基础)本体,如广义本体语言(Generalized Ontological Language,GOL)/通用形式本体(General Formal Ontology,GFO)。
1.3 上层本体比较与合作
关于上层本体的比较,可参考相关研究。2006年,Ontolog论坛举办了上层本体峰会,许多主要的上层本体开发者签署了联合公报,同意“开发将现有上层本体相互关联所需的机制和资源,以提高对它们所提供知识的重用能力,从而促进与它们相关的其他本体之间的语义互操作性”。
2. 元数据和本体存储系统示例
这里介绍一些元数据和本体存储系统,它们代表了先进的存储方法、技术和标准。
2.1 开放本体存储库(Open Ontology Repository,OOR)
OOR的努力始于2008年本体峰会“迈向开放本体存储库”。其使命包括:
- 建立一个托管的注册存储库
- 支持和促进开放、联合、协作的本体存储库
- 为在注册存储库中表达可互操作的本体和分类工作建立最佳实践
OOR建立了一个沙箱,供联合存储库组件参与,目前包括国家生物医学本体中心的BioPortal。其方法和架构可在OOR网站上查看。
2.2 扩展元数据注册表(Extended Metadata Registry,XMDR)
XMDR是一个原型元数据注册表,旨在提高11179元数据注册表标准支持语义的能力。该项目由劳伦斯伯克利国家实验室主导,得到了多个组织的支持。其目标是研究对11179标准的语义扩展实现,并根据研究结果提出标准修订建议。
XMDR的功能包括:
- 摄取、转换和索引词汇表
- 提供按词汇表或跨词汇表查询词汇内容的机制
- 存储词汇表之间的映射
当前版本0.6包括可用于构建基于OWL/RDF的元数据注册表的核心软件版本,以及可用于构建符合ISO/IEC 11179的元数据注册表的软件组件。可使用SPARQL端点或文本搜索检索OWL/RDF元数据。XMDR目前包含多个标准和常用词汇表的索引。
2.3 都柏林核心(Dublin Core,DC)元数据注册表
DC元数据注册表是元数据注册表的早期示例,是一个开源项目,由OCLC研究办公室与都柏林核心元数据倡议注册表社区合作开发。它包含有关DCMI元数据元素和相关词汇表的权威元数据,使用开源的支持Web的关系数据库,可通过DCMI网站以及REST和SOAP服务接口访问。
2.4 LEX企业词汇服务(LexEVS)术语服务器
LexEVS术语服务器是一个开源的术语管理系统,实现了LexGrid模型和相关的LexBIG服务。它提供对与美国国家癌症研究所的NCI企业词汇服务(EVS)项目相关的受控词汇表的访问,是一个Java应用程序,包括Java API、REST/HTTP和SOAP Web服务接口,以及基于LexGrid 2009/01数据模型的分布式LexBIG接口,可远程访问本地LexEVS API。
2.5 BioPortal
BioPortal是一个基于Web的本体存储和管理应用程序,由美国国立卫生研究院(NIH)资助,由国家生物医学本体中心(NCBO)领导。它具有与XMDR原型类似的功能,且更为成熟。用户仅使用Web浏览器即可浏览、搜索和可视化多种格式的本体,包括OWL、RDF、美国国立医学图书馆的丰富资源格式(RRF)和LexGrid XML。
BioPortal还具有丰富的协作功能:
- 用户可以在术语级别对本体进行注释
- 注释可用于对本体进行评级和添加评论
- 可以在本体之间映射术语,提出新术语或术语修改建议
- 可以上传图像作为术语描述符
其注释可通过门户应用程序浏览,可通过Web服务访问,用户还可以订阅RSS feed以获取新注释的通知。BioPortal采用分层架构,使用对象关系数据库(ORDB)进行存储,使用Mayo Clinic的LexGrid和Protégé管理不同格式的本体和术语。最近,它还添加了一个资源注释器,可自动用本体术语标记生物资源,并将这些资源索引到相应的本体中。
2.6 国家科学数字图书馆(NSDL)元数据注册表
NSDL元数据注册表最初是为支持国家科学数字图书馆而构建的,前三年由美国国家科学基金会资助,现在作为开放元数据注册表可用。它是W3C简单知识组织系统标准的早期采用者,目前以SKOS编码,包括一个SPARQL端点。未来计划包括利用语义技术自动创建和维护模式和应用程序配置文件,以及映射注册元数据方案中术语和概念之间的关系。
2.7 环境保护局(EPA)注册系统
EPA注册系统(System of Registries,SoR)是一个Web门户应用程序,旨在帮助理解EPA使用的环境术语和数据。它分为6个组件注册表,每个注册表包含服务于不同功能区域的元数据:
| 注册表名称 | 功能描述 |
| — | — |
| 系统库存服务注册表 | 存储有关EPA系统、应用程序、其数据模型和数据集的元数据 |
| 数据注册表服务 | 管理EPA和合作伙伴系统中维护的环境数据的元数据,包括定义、来源、使用信息、有效值等 |
| 物质注册表服务(SRS) | 管理EPA跟踪和监管的物质的词汇表和元数据,通过同义词链接物质并识别在哪些EPA系统中使用哪些同义词 |
| 可重用组件注册表服务 | 包含可重用Web服务、模式、代码块、数据模型和模板的元数据 |
| 术语存储库服务 | 是一个术语管理工具,包含环境术语的存储库以及定义术语之间关系、术语定义和其他术语描述符的元数据,还包括创建和管理受控词汇表(如词汇表和词库)的工具 |
| 设施注册表系统(FRS) | 是一个数据库,包含识别受EPA监管或跟踪的空气、水和废物设施的名称、位置、所有者或管理者以及相关元数据描述符的数据和元数据 |
这些注册表使用多种存储和管理方法及软件,包括用于术语服务的Synaptica分类管理器(采用ANSI Z39术语标准),大多使用关系数据库技术进行存储,并且处于开发Web服务和用于分布式管理、使用和重用注册表元数据的通用工具的不同阶段。
2.8 语义媒体维基(Semantic Media Wiki,SMW)
SMW使用嵌入式元数据存储方法扩展开源MediaWiki应用程序。它嵌入在维基页面中的语义注释使软件能够像数据库一样工作,用于增强对维基页面的搜索、组织、编辑、显示和浏览能力。SMW扩展了维基页面中的超链接,通过注释描述维基文本中陈述的关系,称为“类型化链接”。它可以基于这些类型化链接进行推理,实现对维基内容的高级查询和聚合,并可以将类型化链接导出为OWL/RDF XML格式,供语义Web工具使用。SMW由德国卡尔斯鲁厄大学的应用计算机科学与形式描述方法研究所(AIFB)资助和开发。
2.9 Swoogle
Swoogle是由马里兰大学巴尔的摩县分校计算机科学与电气工程系的ebiquity研究小组领导的语义Web搜索引擎研究项目。它不存储源本体,而是在万维网上爬取以W3C标准资源描述框架语法编码的公开可用词汇表文档,并为这些文档创建语义索引,用于搜索和检索。Swoogle是一个Java应用程序,将索引存储在MySQL数据库中,还提供Web服务和模仿Google搜索引擎的Web搜索界面,目前索引了超过三百万个RDF文档。
2.10 NASA本体共享网站
美国国家航空航天局(NASA)喷气推进实验室(JPL)作为地球和环境术语语义Web(Semantic Web for Earth and Environmental Terminology,SWEET)项目的一部分,发布了一个公开可用的OWL本体库。Planetont.org是一个由NASA资助的、与SWEET项目相关的地球科学相关本体共享社区和论坛。两者的本体都作为文件存储在支持Web的关系数据库中,并作为OWL文件列表在线发布。
3. 元数据和本体存储与管理工具
这里将存储和管理工具分为两类:与元数据相关的工具和与本体相关的工具。
3.1 元数据和受控词汇表存储相关工具
| 工具名称 | 商业(C)/免费(F)/开源(O) | 存储技术 | 编码标准 |
|---|---|---|---|
| ASG - Rochade元数据存储库 | C | RDBMS | XML |
| ebXML注册存储库 | FO | ORDBMS,分布式DBMS | XML,ebRIM,ebRSP |
| Fedora存储库 | FO | 中间件,三元组存储,RDBMS | XML,RDF |
| InfoLibrarian通用MetaMart™元数据存储库 | C | 中间件,RDBMS | XML |
| Informatica PowerCenter高级版元数据管理器 | C | 中间件,RDBMS | N/A |
| MarkLogic服务器 | C | 原生XML | XML |
| MetaMatrix MetaBase存储库 | C | 中间件,RDBMS | XML |
| Objectivity/DB® | C | OODBMS,分布式DBMS | N/A |
| Open Harmonize | FO | 分布式 | WebDAV |
| 甲骨文伯克利DB XML | FO | 原生XML | XML |
| 甲骨文存储库 | C | RDBMS | N/A |
| SAS®元数据服务器 | C | 文件服务器 | XML |
| SDL MultiTerm | C | 中间件,原生XML,ORDBMS | XML |
| SchemaLogic | C | ORDBMS | XML |
| Synaptica分类管理器 | C | 中间件,RDBMS | Zthes,SKOS,RDF,OWL |
| SuperLuminate | FO | RDBMS | XML |
| Tamino | C | 原生XML | XML |
这些与元数据相关的工具通常用于传统的元数据管理和简单的本体存储与检索,不专门用于处理、管理和解释本体的语义。
3.2 本体存储相关工具
| 工具名称 | 商业(C)/免费(F)/开源(O) | 存储技术 | 编码标准 |
|---|---|---|---|
| AllegroGraph RDFStore™ | C | 三元组存储 | RDF |
| Anzo语义服务器/Open Anzo | C/FO | 三元组存储 | RDF |
| Asio Parliament | CO | 三元组存储 | RDF,OWL |
| Boca | FO | 三元组存储 | RDF |
| 可扩展知识服务器(XKS™) | C | 演绎数据库 | 通用逻辑 |
| Jena | FO | 中间件,三元组存储 | RDF,OWL |
| Knoodl | C | Wiki,三元组存储 | RDF,OWL |
| Metatomix | C | 中间件,三元组存储 | RDF |
| Mulgara语义存储 | FO | 三元组存储 | RDF,OWL |
| 甲骨文空间11g RDFDB | C | 三元组存储 | RDF |
| OWLIM语义存储库 | FO | 三元组存储 | RDF,OWL |
| 语义媒体维基 | FO | Wiki,RDBMS | RDF |
| Seamark Navigator | C | 中间件,RDBMS | RDF,OWL |
| Semantics. Server 1.0 | C | 三元组存储 | RDF,OWL |
| Sesame | FO | 中间件/三元组存储 | RDF |
| Thetus发布者 | C | 中间件/RDF/OWL | |
| TopBraid套件 | C | 中间件/RDF/OWL/XML | |
| Virtuoso通用服务器 | C | ORDBMS/原生XML/三元组存储 | XML/SOAP/WSDL/RDF |
这些与本体相关的工具提供了更强大的本体管理功能,与本体相关的标准和工具兼容。
4. 总结
本文介绍了上层或基础本体标准,包括IEEE SUO WG和Wonder Web提出的本体。还详细介绍了多个元数据和本体存储系统,如OOR、XMDR、BioPortal等,以及不同类型的存储与管理工具。这些信息为在实际应用中选择合适的存储和管理方法提供了参考,有助于提高对元数据和本体的处理能力和语义互操作性。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A(上层或基础本体标准):::process --> B(元数据和本体存储系统示例):::process
B --> C(元数据和本体存储与管理工具):::process
C --> D(选择合适存储和管理方法):::process
4.1 上层本体标准的重要性
上层本体标准在知识表示和语义互操作性方面起着关键作用。IEEE SUO WG和Wonder Web等项目的努力,为构建通用的知识框架提供了基础。例如,SUMO、UCO和IFF等候选上层本体,有助于统一不同领域的术语和概念,使得不同系统之间能够更好地理解和共享知识。而Wonder Web的基础本体库,为更详细的领域本体开发提供了坚实的基础,促进了知识的重用和扩展。
4.2 存储系统的特点与优势
不同的元数据和本体存储系统各具特点和优势。OOR的开放、联合和协作模式,使得本体资源能够更广泛地共享和利用;XMDR通过对11179标准的语义扩展研究,提高了元数据注册表支持语义的能力;BioPortal的丰富协作功能和分层架构,为生物医学领域的本体管理提供了强大的支持。这些存储系统的多样性,满足了不同领域和应用场景的需求。
4.3 工具选择的考量因素
在选择元数据和本体存储与管理工具时,需要综合考虑多个因素。对于传统的元数据管理和简单的本体存储与检索,可以选择与元数据相关的工具,如ASG - Rochade元数据存储库、ebXML注册存储库等。而对于需要处理复杂本体语义和进行高级本体管理的场景,则应选择与本体相关的工具,如AllegroGraph RDFStore™、Jena等。工具的商业性质、存储技术和编码标准也是重要的考量因素。
5. 未来展望
随着信息技术的不断发展,元数据和本体存储与管理技术也将不断演进。
5.1 语义技术的进一步应用
未来,语义技术将在元数据和本体管理中得到更广泛的应用。例如,利用语义推理和机器学习算法,实现对本体知识的自动挖掘和更新;通过语义匹配和映射,提高不同本体之间的互操作性。
5.2 跨领域的知识融合
不同领域之间的知识融合将成为趋势。通过建立统一的上层本体标准和跨领域的本体映射,实现不同领域之间的知识共享和协同工作,促进跨学科研究和创新。
5.3 云存储和分布式系统的发展
云存储和分布式系统将为元数据和本体存储提供更强大的支持。利用云平台的弹性计算和存储能力,实现大规模本体数据的高效存储和管理;通过分布式系统的协同工作,提高系统的可靠性和性能。
6. 操作建议
6.1 选择存储系统的步骤
- 明确需求 :确定需要存储和管理的元数据和本体的类型、规模和应用场景。
- 评估功能 :比较不同存储系统的功能,如数据摄取、转换、索引、查询和协作等功能。
- 考虑兼容性 :确保存储系统与现有的技术栈和标准兼容,如XML、RDF、OWL等。
- 进行测试 :在实际环境中对候选存储系统进行测试,评估其性能和稳定性。
6.2 使用管理工具的注意事项
- 了解工具特性 :熟悉所选管理工具的功能和特性,掌握其操作方法和技巧。
- 遵循标准规范 :在使用工具时,遵循相关的标准和规范,确保数据的一致性和互操作性。
- 定期维护和更新 :定期对工具进行维护和更新,以保证其性能和安全性。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A(明确需求):::process --> B(评估功能):::process
B --> C(考虑兼容性):::process
C --> D(进行测试):::process
D --> E(选择合适存储系统):::process
F(了解工具特性):::process --> G(遵循标准规范):::process
G --> H(定期维护和更新):::process
H --> I(有效使用管理工具):::process
7. 结论
元数据和本体存储与管理技术在当今信息时代具有重要的意义。通过了解上层本体标准、不同的存储系统和管理工具,我们能够选择合适的方法来处理元数据和本体,提高知识的共享和利用效率。未来,随着技术的不断发展,这些领域将迎来更多的机遇和挑战。我们应密切关注技术的发展趋势,不断探索和创新,以更好地应对这些挑战,推动元数据和本体管理技术的发展。
超级会员免费看

被折叠的 条评论
为什么被折叠?



