讲到元数据,其实有很多东西可以聊的,元数据作为数据治理的基本抓手,是整个数据治理过程中的关键环节,是诸如数据质量、数据资产、数据安全、数据开发等模块的重要基础,可以说治理好元数据,也就治理好了数据。
元数据到底是啥意思呢?从基础定义上来说,元数据就是用来描述数据实体的数据,从而帮助用户更好的理解数据,一切用来描述数据的信息都可以称为元数据,因而元数据是一个相对较为宽泛的概念,但是在实际落地项目中,各企业会根据自身信息化建设和业务需要,对元数据做出比较明确的限定,所以不同企业的元数据信息会有所差异。
一般来说,对元数据的定义都会分为三大类,即技术元数据、业务元数据、管理元数据:
我们都知道理论与实际都是有差异的,在实际IT建设中,大部分企业主要聚焦在技术元数据和业务元数据上,且重点关注技术元数据的治理,这是因为管理元数据与业务相关度低,而业务元数据又会受限于对业务的理解深度,相较而言,IT用户对技术元数据更加熟悉,也更容易处理。
知道元数据是啥了,那元数据的意义或者说作用又是什么呢?事实上,前面已经提到过,元数据对数据治理至关重要,基于元数据,我们可以摸清数据的来龙去脉、可以帮助提升数据质量、可以形成体系化的数据资产……,元数据既然这么重要,那怎样来进行元数据的治理呢?
图 元数据治理过程
首先,要对分散在各业务系统、数据库的元数据信息进行采集汇聚。
对于企业来说,元数据一般分布较为散,涵盖有数据源元数据、数据处理过程元数据、数据仓库元数据、数据指标元数据、数据接口元数据等,因而需要进行各种采集适配和定制开发,来完成相关元数据的采集,包括RDB、MPP、Hadoop、ETL工具等。这里还涉及到元模型,元模型顾名思义就是元数据的模型,实际上就是采集元数据时,对采集内容的一些配置和限定,保障采集进来的元数据是满足我们的要求,同时也方便元数据的统一化和集中化管理。
其次,采集进来的元数据还不够完善,需要对其进一步实施管理。
元数据管理的目标就是让元数据更加规范易用,涉及到元数据的解析、稽核、维护等方面,通过这一系列的处理,保障元数据对数据描述的完整、准确。
元数据解析:元数据采集主要是采集的一些日志信息,需要基于采集到的日志对SQL进行解析,从而得到目标数据的元数据信息。
元数据稽核:对于采集、开发过程中的元数据信息,在SQL解析成功率、数据映射关系完整性、元数据属性完整性、标准合规性等进行稽核,从而帮助提升和优化元数据的质量。
元数据维护:元数据维护主要是对元数据信息的新增、修改、删除等处理,同时,也要对元数据的版本进行管理,元数据变更会基于制定的申请、审核、执行、发布等流程节点来串通,规范元数据的维护工作。
最后,元数据是数据治理的核心,要充分的应用起来。
基于元数据构建数据资产目录:根据元数据丰富的数据描述信息,可以对数据资产进行分门别类的梳理,形成一个直观的数据资产展现目录,让分散在各个存储部位的数据资产,在管理上实现统一与规范,提升数据的资产化属性。
基于元数据构建数据血缘链路:数据血缘是数据治理工作的关键,通过元数据分析出数据加工处理的相关信息,把数据的来龙去脉梳理清楚,这样数据治理过程,对各类数据问题都可以快速的进行定位和溯源,提升数据治理水平。
元数据的应用还有很多方面,比如说数据冷热度分析、数据关联度分析、数据生命周期管理等等,可以说数据治理的各个方面都绕不开元数据,可见元数据的重要度。
总结一下
元数据是企业开展数据治理和数据资产化工作的关键点,是数据资源的字典和指南,做好元数据管理,让数据从混乱走向规范,为企业的数据战略规划、存量数据梳理、数据质量提升、数据安全管控、数据资产应用等提供基础支撑,提供精准高效的分析和决策,帮助企业实现数字化转型,让数据驱动企业业务发展。