应用模型驱动方法实现数据模型统一
1 引言
当前,大量科学数据源集中在数据基础设施中,这些设施支持从数据收集、整理到存储和分析的整个数据处理和管理周期。为有效管理和重用科学数据,科学界提出了FAIR原则,即数据应具备可发现性(Findable)、可访问性(Accessible)、可互操作性(Interoperable)和可重用性(Reusable)。
然而,数据基础设施面临的一个巨大问题是数据的异构性。数据以各种数据模型表示,包括关系模型、对象模型、图和基于数组的模型、RDF框架、本体模型(如OWL)、半结构化数据模型(如XML、JSON)等。不同的数据模型在数据定义和操作语言上差异很大,因此数据集成问题在数据基础设施中变得越来越重要。
常见的数据集成系统有数据仓库和主题中介器,它们分别执行物化数据集成和虚拟数据集成。这两种系统都需要一个统一的数据模型,作为异构数据源模型的通用语言。源数据模型需要统一,即映射到统一的数据模型中并保留其语义,这是源模式集成的先决条件。
本文致力于基于模型驱动工程(MDE)方法实现数据模型统一技术,通过形式化方法定义数据模型的语法和语义转换,并将其与之前使用元编译和术语重写技术的实现进行比较。
2 数据模型统一原则
数据基础设施集中了使用各种数据模型表示的数据源,这些数据模型及其操作语言需要在某个规范数据模型C的框架内统一。
规范模型设计的主要原则是其核心(固定部分)在异构环境中的可扩展性,以涵盖源数据模型的特性。特定源数据模型R若能映射到规范模型C,则称其被统一。这意味着创建规范模型核心KernelC的扩展E(扩展可以为空),以及将源模型映射到扩展后的规范模型的映射