概述
数据治理的标准也分国内和国外。
国外的有DAMA International 国际数据管理协会;国内的标准有DCMM模型。
治理的大概流程图如下所示
数据盘点
在数据接入之前一定要进行数据盘点,目的就是为了搞清楚都有哪些业务以及对应的系统,摸清系统的建设详情,数据量、数据字典等等信息。其次摸清所有情况也是为决定哪些数据要接入,接入的方式;最后还要了解业务以及数据为后续仓库建模做准备。
具体的流程分为四部分
业务分析—系统分析—表级分析—字段分析
整个流程可以循环往复。
业务分析阶段一般是会用到业务流程图,能帮助我们梳理业务,还有将业务调研模板下发给业务部门进行相关问题项的填写。
系统分析可以得到业务调研表的结果,明确数据对接方式、对接的频率,业务数据产生时间窗口,表数量,数据存量等信息。
表级分析阶段,通过该阶段,梳理出有业务价值的表,我们遵循2/8原则,通过过滤条件,得到核心关键表。
最后还要发给业务部门表分析调研模板,判断表是否接入以及接入方式。
字段分析考虑字段的中英文名,是否有主键,是否允许有空格,源系统数据类型和数据平台数据类型是否一一对应等问题。
数据接入
数据盘点之后进行数据接入,其方式有五种。
(1)结构化接入
分类有三种
单表接入又分为全量接入和增量接入,全量接入分为覆盖模式和追加模式;
整库接入一般是在数据平台初始化,数据池中没有数据;
sql方式
(2)API接入
够通过API方式获取在线数据并自动解析,将解析结果进行写入映射,实现API数据的采集
(3)半结构化接入
支持以下几种方式接入
- Kafka接入
- MongoDB接入
- ES接入
(4)非结构化接入
把文件、图片、视频等接入到HDFS系统中。
(5)实时接入
支持CDC技术,对源表提取数据,并将变化的数据保存到Kafka消息队列中。支持通过flinksql、storm、sparksql等实时流数据处理。
数据标准
数据标准的目的和意义,就是为了能让原本的无序数据中心变成标准规范、可连接共生的大数据平台。
标准也是有体系的,基本标准大概有层级命名,主题域名,表命名等
标准的分类有国家标准,行业标准,地方标准等。
获取标准的方式,我们可以通过客户提供的一些标准号,也可以到一些标准公开网站进行查询下载。
常见的六大数据标准如下:
(1)数据元标准
(2)代码项标准
(3)编码规则标准
(4)信息资源目录标准
(5)开发命名规范标准
(6)开发规范标准
元数据管理
元数据就是描述数据的数据,而数据元是组成实体数据的最小单元,举个简单的例子,数据是文件夹的话,那么元数据就是文件夹的标签。
那么根据来源一般分为三种
(1)业务元数据——对数据实体和数据处理的业务化描述,包括业务规则、业务术语、统计口径、信息分类等;
(2)技术元数据——提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息;
(3)管理元数据——描述了处理和访问数据的细节;
元数据管理的大概流程如下
(1)元数据采集
(2)元数据维护
(3)元数据审核、发布
一般用到Apache Atlas,它是Hadoop平台元数据框架。Atlas主要面向Hadoop生态圈的数据溯源工具。主要监控Apache Hive、Apache Hbase、Apache Kafka、Apache Storm的元数据变更,并自动生成数据流动图,通过UI界面展示给用户。
应用—数据血缘
数据血缘是数据的组成部分之一。它分析表和字段从数据源到当前表的血缘路径
获取方式
SQL自动解析(Atlas)
由数据处理程序负责发送数据血缘信息。例如在注解部分增加血缘信息的描述
手工收集,比如Mapping关系映射
用途
(1)数据溯源
当上层应用指标有异常时,可以通过血缘分析向下查找可能出问题的数据来源
(2)影响分析
对某个核心元数据进行修改时通过血缘关系可以得到对下游的影响
(3)冷热度分析
哪些数据是企业常用数据,哪些数据属于僵尸数据,对不同数据采用不同存储访问方式
(4)数据归档和销毁参考
对没有受众的数据进行归档或者停止对应脚本运行,节省系统资源
数据质量稽核
建好的数据标准也是要经过,我们将从以下几个数据标准中完成数据质量的稽核:
(1)数据元标准稽核
同一个中文对应不同英文,同一个英文对应不同的中文;字段是否包含在数据元标准范围内;数据类型是否和数据元标准保持一致;列名的comment不为空;
(2)代码项标准稽核
是否存在未转换的代码项;是否存在重复的
(3)编码规则标准稽核
通过正则表达式校验
(4)命名规范稽核
检查实际开发过程中是否遵循了命名规范
稽核遵循十大稽核规则
有些时候,企业没有建整个数据标准体系