数据质量监控规划
一、项目背景
数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。
二、数据质量产生的原因
数据质量问题产生的原因有三大类:
一是源数据问题。
二是数据ETL处理过程中产生的问题。
三是业务需求发生了改变或者没有满足需求。
三、数据质量战略
大多数企业都没有一个数据战略,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。
缺乏数据战略将导致脏数据、冗余数据、数据不一致、性能低下、可用性差、责任缺失、用户日益不满意数据的性能。
数据质量战略指令:指令主要分为三组,第一组着眼于数据在企业内的重要性,并需要由高级管理层来推动。第二组把制造实物产品的概念应用到数据上,它们应该由数据质量项目团队推动。第三组的重点是建设质量文化,以应对数据的流体性质并满足战略管理的持续挑战。
四、数据质量评估流程
数据质量的评估流程: 对所有数据进行一个大而全的梳理,将数据仓库各层的数据按照重要性进行排期,分期分级别进行进行监控。
1.定期测量
针对非关键性数据和不适合持续测量的数据,定期重新评估为数据所处状态符合预期提供一定程度的保证。定期评估可以确保参考数据保持最新,关系依然稳定,并且业务和技术演进不会导致意外的数据更改。
2.持续监控
持续测量的重点是关键的或有风险的数据,并且以自动化的方式进行,持续测量的目标是:
1)监控数据的状况,并为数据在何种程度上符合预期提供保障。
2)对数据或处理过程中的变化进行检测
3)制定改进数据的机会
五、数据质量系统架构
数据仓库是由调度系统来调度的,数据质量系统主要保证数据仓库ETL生成的数据质量。所以数据质量系统也和数据仓库、调度系统息息相关。
六、数据质量监控维度
1、完备性:数据存在,属性和数据量符合预期
2、完整性:数据关系和规则的符合程度
3、有效性:数据对业务规则的符合程度
4、及时性:关键数据是否能够及时传递到目标位置
5、一致性:数据集内部以及数据集之间的数据变异或则变更程度
七、数据质量报告
在做数据分析之前一般都应该初步对数据进行评估。初步数据评估通过数据报告来完成的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值、格式、模式、规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估报告的目的是获得对数据和环境的了解,并对数据的状况进行描述。数据质量报告规则应该如下:
编号 | 质量维度 | 二级质量维度 | 说明 |
1001 | 完备性 | 原始数据存在 | 原始收集s3目录下数据是否存在,done是否生成 |
1002 | 完备性 | 原始数据收集准确性 | 原始收集s3目录的大小与历史水平比值在一定的阈值范围内 |
1003 | 完备性 | 原始数据清洗准确性 | 原始s3日志和清洗后的记录数比对 |
1004 | 完备性 | 原始数据同步的准确性 | 源数据库和同步的数据之间比对 |
2001 | 完整性 | 字段长度 | 表字段长度满足一个范围 |
2002 | 完整性 | 字段格式 | 时间日期格式使用规定格式、金额使用规定格式 |
2003 | 完整性 | 字段默认值 | 表不可为空的字段 都使用默认值填充 |
2004 | 完整性 | 字段空值 | 表字段空值比率在一个范围内 |
2005 | 完整性 | 输入和输出比值 | 合理性检查,将处理的输入和输出之间的比率作比较 |
3001 | 一致性 | 跨表关联 | 比较跨表的映射或业务规则的关系中的值,以数据关联一致性 |
3002 | 一致性 | 跨表汇总 | 跨表汇总与原始表数据汇总一致,与历史水平比值在一定的阈值范围内 |
3003 | 一致性 | 跨表字段类型 | 跨表多个字段表示同一内容,字段类型、空值、默认值一致或者比值满足一定的阈值范围 |
3004 | 一致性 | 单表字段类型 | 同一个表一个字段类型、默认值、空值率一致或者比值在一定的阈值范围内 |
4001 | 及时性 | 数据的交付及时性 | 把数据交付的实际时间与计划数据交付时间作比较 |
4002 | 及时性 | 关键任务时间点延迟 | 关键任务时间点延迟,将处理用时和历史处理用时或一个既定的时间限制作比较 |
5001 | 有效性 | 数据汇总 | 汇总数据和历史水平比较,比值在一定的阈值范围内 |
5002 | 有效性 | 单表字段 | 单表字段和一个阈值作比较(如单次时长满足一个规则) |
5003 | 有效性 | 行数检查不可以重复 | db层数据,设定主键,数据行数不运行重复 |
5004 | 有效性 | 行数检查,重复记录不能超过阈值 | log层数据,设定主键,数据行数重复比例在一个范围内 |
八、数据质量排期