数据质量监控规划

数据质量监控规划

一、项目背景

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

 

二、数据质量产生的原因

       

数据质量问题产生的原因有三大类:

一是源数据问题。

二是数据ETL处理过程中产生的问题。

三是业务需求发生了改变或者没有满足需求。

 

 

 

三、数据质量战略

大多数企业都没有一个数据战略,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。

缺乏数据战略将导致脏数据、冗余数据、数据不一致、性能低下、可用性差、责任缺失、用户日益不满意数据的性能。

数据质量战略指令:指令主要分为三组,第一组着眼于数据在企业内的重要性,并需要由高级管理层来推动。第二组把制造实物产品的概念应用到数据上,它们应该由数据质量项目团队推动。第三组的重点是建设质量文化,以应对数据的流体性质并满足战略管理的持续挑战。

 

 

 

 

四、数据质量评估流程

数据质量的评估流程: 对所有数据进行一个大而全的梳理,将数据仓库各层的数据按照重要性进行排期,分期分级别进行进行监控。

1.定期测量 

针对非关键性数据和不适合持续测量的数据,定期重新评估为数据所处状态符合预期提供一定程度的保证。定期评估可以确保参考数据保持最新,关系依然稳定,并且业务和技术演进不会导致意外的数据更改。 

 

2.持续监控

持续测量的重点是关键的或有风险的数据,并且以自动化的方式进行,持续测量的目标是: 

1)监控数据的状况,并为数据在何种程度上符合预期提供保障。

2)对数据或处理过程中的变化进行检测

3)制定改进数据的机会

 

 

五、数据质量系统架构

数据仓库是由调度系统来调度的,数据质量系统主要保证数据仓库ETL生成的数据质量。所以数据质量系统也和数据仓库、调度系统息息相关。

 

 

六、数据质量监控维度

1、完备性:数据存在,属性和数据量符合预期

2、完整性:数据关系和规则的符合程度

3、有效性:数据对业务规则的符合程度

4、及时性:关键数据是否能够及时传递到目标位置

5、一致性:数据集内部以及数据集之间的数据变异或则变更程度

 

七、数据质量报告

在做数据分析之前一般都应该初步对数据进行评估。初步数据评估通过数据报告来完成的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值、格式、模式、规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估报告的目的是获得对数据和环境的了解,并对数据的状况进行描述。数据质量报告规则应该如下:

编号

质量维度

二级质量维度

说明

1001

完备性

原始数据存在 

原始收集s3目录下数据是否存在,done是否生成

1002

完备性

原始数据收集准确性

原始收集s3目录的大小与历史水平比值在一定的阈值范围内

1003

完备性

原始数据清洗准确性

原始s3日志和清洗后的记录数比对

1004

完备性

原始数据同步的准确性

源数据库和同步的数据之间比对

2001

完整性

字段长度

表字段长度满足一个范围

2002

完整性

字段格式

时间日期格式使用规定格式、金额使用规定格式

2003

完整性

字段默认值

表不可为空的字段 都使用默认值填充

2004

完整性

字段空值

表字段空值比率在一个范围内

2005

完整性

输入和输出比值

合理性检查,将处理的输入和输出之间的比率作比较

3001

一致性

跨表关联

比较跨表的映射或业务规则的关系中的值,以数据关联一致性

3002

一致性

跨表汇总

跨表汇总与原始表数据汇总一致,与历史水平比值在一定的阈值范围内

3003

一致性

跨表字段类型

跨表多个字段表示同一内容,字段类型、空值、默认值一致或者比值满足一定的阈值范围

3004

一致性

单表字段类型

同一个表一个字段类型、默认值、空值率一致或者比值在一定的阈值范围内

4001

及时性

数据的交付及时性

把数据交付的实际时间与计划数据交付时间作比较

4002

及时性

关键任务时间点延迟

关键任务时间点延迟,将处理用时和历史处理用时或一个既定的时间限制作比较

5001

有效性

数据汇总

汇总数据和历史水平比较,比值在一定的阈值范围内

5002

有效性

单表字段

单表字段和一个阈值作比较(如单次时长满足一个规则)

5003

有效性

行数检查不可以重复

db层数据,设定主键,数据行数不运行重复

5004

有效性

行数检查,重复记录不能超过阈值

log层数据,设定主键,数据行数重复比例在一个范围内

 

八、数据质量排期


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值