文章目录
简介
这篇文章主要讲数据治理的基础和核心之一:元数据。从关于元数据的三个概念谈起,讲到元数据的分布范围和如何获取元数据,最后从几个常见的应用出发,谈谈元数据的一些实际应用场景。
一. What? 什么是元数据
元数据是一个相当抽象、不易理解的概念,所以第一个章节,我们先把元数据是什么搞懂。这一章节共提出三个概念。
1.1 元数据(Meta Data)是描述数据的数据。
这是元数据的标准定义,但这么说有些抽象,技术同学能听懂,倘若听众缺乏相应的技术背景,可能当场就懵逼了。产生这个问题的根源其实是一个知识的诅咒:我们知道某件事情,向不了解的人描述时却很难讲清楚。
要破解这个诅咒,我们不妨借用一个比喻来描述元数据:元数据是数据的户口本。让我们想想一个人的户口本是什么,是这个人的信息登记册:上面有这个人的姓名,年龄,性别、身份证号码,住址、原籍、何时从何地迁入等等,除了这些基本的描述信息之外,还有这个人和家人的血缘关系,比如说父子,兄妹等等。所有的这些信息加起来,构成对这个人的全面描述。那么所有的这些信息,我们都可以称之为这个人的元数据。
同样的,如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、表别名、表的所有者、数据存储的物理位置、主键、索引、表中有哪些