关注作者
PART 01 术语和定义
1.1. 数据元 (data element)
在GB/T18391.1-2009中,数据元的定义:由一组属性规定其定义、标识、表示和允许值的数据单元。
1.2. 数据项 (data item)
在GB/T 18391-2002中,数据项的定义:数据元的一个具体值。
1.3. 元数据 (metadata)
在GB/T 18391-2009中,元数据的定义:定义和描述其他数据的数据。
1.4. 数据字典 (data dictionary)
在GB/T 18391-2002中,数据字典的定义:涉及其他数据应用和结构的数据的数据库。
PART 02 组成
2.1. 数据元
数据元也称为数据元素,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元,数据元组成见图 1:
图1 数据元组成
-
对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;
-
特性:对象类的所有个体所共有的某种性质
-
表示:值域、数据类型的组合,必要时也包括度量单位或字符集。
其中对象类+特性构成了数据元概念,数据元概念+表示构成了数据元。上述三个概念加上数据元概念,四者具体的逻辑关系见下图2:
图2 数据元概念与数据元逻辑关系
2.2. 数据项
数据项可以是字母、数据、有意义的符号或前者的任意组合。
2.3. 元数据
元数据是定义和描述其他数据的数据,意味着元数据的组成就是数据项,符合数据的特性,可再解释的形式化表示。元数据描述数据的内容、覆盖时间范围和空间范围、质量、管理方式、数据的所有者、数据的提供方式、数据的来源信息等信息,是数据与数据用户之间的桥梁。
2.4. 数据字典
数据字典是用户可以访问的一种信息集合的目录,记录了有关数据库以及应用程序源数据的信息,Oracle数据库认为:数据字典是存放有关数据信息的地方,且具有描述数据的用途。数据字典不包含数据库实际数据的信息。数据字典的详细分类见下文,集成化数据字典具体部分见图 3:
图3 集成化数据字典组成
-
数据项:数据项是不可再分的数据单位,数据项描述={数据项名,数据项含义说明,别名,数据类型,长度,取值范围,取值含义,与其他数据项的逻辑关系}。
-
数据结构:数据结构反映了数据之间的组合关系。一个数据结构可以由若干个数据项组成,也可以由若干个数据结构组成,或由若干个数据项和数据结构混合组成。数据结构描述={数据结构名,含义说明,组成:{数据项或数据结构}}。
-
数据流:数据流是数据结构在系统内传输的路径。数据流描述={数据流名,说明,数据流来源,数据流去向,组成:{数据结构},平均流量,高峰期流量}。
-
数据存储:数据存储是数据结构停留或保存的地方,也是数据流的来源和去向之一。数据存储描述={数据存储名,说明,编号,流入的数据流,流出的数据流,组成:{数据结构},数据量,存取方式}。
-
处理过程:数据字典中只需要描述处理过程的说明性信息。处理过程描述={处理过程名,说明,输入:{数据流},输出:{数据流},处理:{简要说明}}。
PART 03 应用场景与分类
从概念上讲,各个词语之间的划分界限与数据所代表的抽象级别有关,经常会出现一个组织的元数据是另一个组织的数据元,下面列举几个典型场景来帮助大家理解词语的“神”(概念),对于“形”(实体),每个组织机构在不同场景下不同使用方式不一样,可能都会有不同结果。
3.1. 数据元
数据元(又称数据元素)是数据共享和共同持有的基本单元,在不同的应用场景下,数据元对应的实体是不一致的,下面列举了几种典型场景下数据元的实体例子。
-
数据模型中的数据元
在一个数据模型中,一个实体(实体类型)的某个特性的属性会被组织机构作为数据资产保存。数据模型可用于识别兴趣体(实体或对象)应用相关环境中的诸多事物,属性提供关于这些实体和对象使用所需的信息,用于整个自动化信息系统环境的数据元是面向对象范畴中这些实体或对象以及他们属性的表示。产生于数据模型的数据元的名称是典型形式是实体名称和实体属性名称的合成(图4)。
图4 数据模型中的数据元
b. 对象模型中的数据元
在一个对象模型中,类或对象名称与类或对象属性混合使用以形成数据元名称,见图5,对象模型不同于数据模型的地方在于:前者可包含有关对象或类的附加信息,如行为或运行。
图5 对象模型中的数据元
c. 表中的数据元
关系型数据库中的数据元以字段名的形式出现于表格中。图 6给出了数据库表格中数据元的一个例子。
图6 数据库表格中的数据元
3.2. 数据项
数据项是数据不可分割的最小单元。从数据产生、流通、再生产、销毁等全过程中每个应用场景都存在数据项,数据项在计算机领域内,主要起到两个作用。
a. 数据流通,数据项在流通过程中代表本身的业务含义支持业务正常开展。
b. 数据分析,大量的数据项给数据分析人员提供分析支持,促进业务发展。
3.3 元数据
元数据被定义为“关于数据的数据”,但是该定义有一定歧义和混乱,可以认为元数据主要目的是为了帮助组织机构去理解数据、系统和流程,评估数据,管理数据等功能。就像图书馆需要有目录卡片来帮助读者寻找特定的书籍或者特定主题的书籍。
元数据有助于处理、维护、集成、保护和治理其他数据,元数据主要用于数据管理和数据使用,组织机构都拥有并不断产生大量的数据,需要有一个事物或工具帮助组织中各层级人员了解并获取不同的数据,元数据刚好可以满足该需求,通过将元数据记录并不断更新,帮助组织获取和管理数据。
DAMA的介绍中:元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。
在信息技术领域内,元数据通常分为三种类型:业务元数据、技术元数据、操作元数据。
-
业务元数据(Business Metadata)主要关注数据的内容和业务规则下数据出现和使用条件,包括在数据治理过程中需要的详细信息。如数据利益相关方、业务规则、转换规则、计算公式、数据的更新计划等。
-
技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。如物理数据库表名和字段名、数据库对象属性、数据CRUD规则、数据模型、数据模型与实物资产之间的关系等。
-
操作元数据(Operational Metadata)描述了处理和访问数据的细节。如数据调度频率,清洗标准,服务水平协议(SLA)要求和规定,报表查询和访问模式、频率和执行时间,备份、保留、创建日期,容灾方案。
在非信息技术之外的领域内,如在信息科学领域内,元数据通常描述为描述元数据、结构元数据、管理元数据。
-
描述元数据(Description Metadata)描述资源并支持识别和检索。如标题、作者和主题等。
-
结构元数据(Structural Metadata)描述资源及其组成组件之间的关系。如页数、章节等。
-
管理元数据(Administrative Metadata)用于描述管理生命周期的元数据。如版本号、存档日期等。
在GB/T 18391-2002中,对于元数据分类有以下的方案模式参考。
-
系统——计算机程序设计及数据库管理所必需的物理及逻辑特征,包括文件的定位、存储介质、记录格式、数据库模式、数据字典等信息;
-
应用——数据理解和应用所必需的信息,以及术语定义、搜集程序和工具、数据采集处理等信息;
-
管理——成本、时间表、预算及数据搜集项目、分析管理的相关信息。
3.4. 数据字典
数据字典是一个广泛概念,狭义上指用来存储信息的数据库本身,也可以是非技术的业务领域内数据元素的定义的集合。常见分类见图7。
图7 数据字典分类
a. 按存储介质
i. 数据库介质:有Oracle、hive自带的元数据库,也有企业将自己公司的数据字典存储在数据库中,如MySQL、Oracle、Postgre等。
ii. 非数据库介质,主要是以excel文档为主:对于一个项目中的数据字典,项目组出于使用便捷、成本低以及数据量可控制等原因,使用excel存储相对应的数据元素,方便数据记录、查询、维护和再开发。
b. 自动和手动
i. 自动数据字典一般是数据库管理软件自动管理或者大公司自研的大数据产品,与数据库的当前结构和定义一致。当数据库管理系统对数据库进行任何更改时,数据字典也会更新。
ii. 手动数据字典一般与业务数据库分开维护,需要我们手动更新。被动数据字典可以作为单独的数据库进行维护,也可以是在独立的excel进行维护。
iii. 半自动特殊情况,在实施项目过程中,经常会出现脚本结合excel情况。主要有俩种模型,一种是在修改影响数据字典内容前,本着设计及开发原则,先修改数据字典,之后通过脚本或者人工方式再去修改对应数据库的内容;另一种情况是,每次修改完数据库内容后,通过脚本方式重新迭代生成新的数据字典。
c. 使用用途
i. 业务数据字典:记录数据在业务流转过程中的关键节点和背后业务意义,保存一个数据元在数据产生、流转、融合、销毁等全生命周期的业务信息规则,帮助数据稽查和商业分析等活动。
ii. 技术数据字典:记录一个数据元在物理数据库中信息,方便开发人员对某一数据元或数据表建设数据模型等加工处理操作。
iii. 其他用途数据字典:在某些项目中,由于特殊需求,针对数据操作和管理可能会有单独的数据字典来维护,项目中每多增加一个非自动化数据字典,提高了维护的人工成本和数据不一致的风险,因此需要项目团队谨慎对待。
PART 04 统一与联系
4.1. 数据项与数据元
数据元是数据的基本单位,数据项是数据的不可分割最小单位,一个数据元由若干个数据项组成。数据元在计算机程序中通常作为一个整体进行考虑和处理,数据项是通过数据类型(逻辑符、数值、字母、符号等)及数据长度来具体描述实体的某种属性。
4.2. 数据元与元数据
数据元的相关信息是一个组织元数据的组成部分,当组织将某数据元的三部分(对象、特性、表示)全部作为元数据时,此时该数据元就是元数据;当组织只把数据元的一部分认定为元数据时,此时只能说数据元的一部分是元数据。元数据来源各异,拥有多种不同类型的数据,部分元数据不在数据元的范畴里。
元数据目的是便于用户理解、共享、控制该组织的数据,即数据元。但是元数据不可能涵盖理解数据元所要表示的数据所必需的所有信息。许多关于数据的内容和管理元数据及组织在该数据元中是缺省的,计算机处理的元数据几乎也是缺省的。
4.3. 数据元与数据字典
数据字典是数据元的定义的集合,数据字典会根据实际需求选择合适的数据元;反之,数据元就是数据字典的重要组成因素。
4.4. 元数据与数据字典
元数据有助于填充数据字典,将元数据存储于一个库中并使之条理化就可以形成一个数据字典。数据字典是组织和人员应用元数据的主要工具,BI专业人员、开发人员、建模人员通过唯一的元数据字典,确保数据的唯一性,提高数据质量和有效性。
数据字典有很多不同用途,对于其他用途的数据字典,数据字典中可能存在部分数据元是数据字典的状况,但不会是唯一数据源。
4.5. 数据元与元数据与数据字典
数据元是数据的单元,元数据是数据的数据,数据字典是数据元的定义的集合。
数据字典是组织和人员应用元数据的主要工具,元数据是为了更好理解和分享数据,数据以数据元的形式流通、分享。
三者既紧密相连,但又没有直接对等关系,需要结合实际情况进行分析,挖掘并发挥出数据价值,实现数据资产化。
PART 05 案例说明
5.1. 案例场景
在航空装备制造业内,各公司的业务模式、公司性质、历史遗留、地区语言等问题影响,导致各单位的规范描述不一致,尤其在跨区域的公司之间,经常出现同一事物多个名称、一个名称不同内容的情况。在各单位之间进行数据流通共享过程中,如设计所、主机厂、配套厂以及终端用户之间进行数据共享过程中,出现数据格式异样,内容标准不一致,数据类型不统一等情况。由于数据量大且种类多,数据提供方或接收方需要花费大量的时间和人工成本实现数据正常流通。
5.2. 案例分析
多个组织单位之间进行数据流通和共享是以数据元为单位进行流通的,单个的数据项不能真实反应背后业务价值,在上述场景中,行业内各单位数据元标准不统一,导致数据项不一致,即数据格式一样、内容格式不统一、数据类型不统一的情况。
元数据目的是便于用户理解、共享、控制数据,即数据元。通过元数据的规范统一,将数据进行统一规范,实现数据互通。华质卓越公司以元数据为抓手,承载基于GJB、GB、HB等标准内容的结构化元数据资源池,建设行业标准元数据库,通过各家单位与行业标准元数据建立映射关系,形成行业内通用元数据字典,以数据驱动为核心结合用户需要的应用服务成为DaaS产品—融融芯 CORMD,应用于数据资源的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据模型建立、数据质量检测、数据安全管理等提供标准依据。帮助航空装备制造业规范标准、确保数据质量、数据流通、资源共享、智能应用、创造数据价值。
融融芯 CORMD在实际应用场景之一,是帮助多个单位之间高频、高效、高质量的完成数据流通,下面以两个单位之间数据流通举例:A单位在收集数据时不规范、导致出现数据存在问题,B单位对于数据有其他格式要求,两单位之间数据交互过程中需要进行一定转换。如图8:
图8 实际场景案例
上图可得:
-
数据项:每一个黄色单元格数据是数据项。
-
数据元:每一行黄色单元格数据形成的行单元是以一个具体产品为对象的数据元。
-
元数据:标记蓝色的单元格是该数据流通表的元数据。
-
数据字典:以融融芯作为数据字典介质,建立映射关系,实现数据流通。
PART 06 总结与展望
数据作为一种新兴资产,已成为一种重要的生产资料。各行各业都有强烈意愿,也迫切需要获得数据价值。数据标准化不但可以帮助企业更大力度挖掘数据价值,还会促进整个产业的升级发展。
数据标准化正是以元数据为抓手,落实数据元标准的规范一致,为后续数据高效交互、数据集成、创造数据价值提供基础建设。基于融融芯CORMD元数据核心技术,通过数据可视化、数据分析、数据挖掘等技术的应用,充分发挥数据价值;对内自动采集与汇总企业结构化及非结构化数据,实现内部交互共享无障碍;对外为企业进行产业链数据交互打下基础,实现数据赋能供应链管理,引领航空装备数智化转型升级。