数据质量评估标准与数据质量规则梳理

数据质量直接影响大数据的价值和决策质量。本文介绍了数据质量的六个维度:完整性、及时性、唯一性、一致性、规范性和准确性,并给出了相应质量规则,如完整性检查空值和记录数,及时性检验时间切片,唯一性避免冗余数据,一致性确保映射和外键正确,规范性遵循码值和格式,准确性检测值域和时序波动。通过这些规则,可以构建数据质量校核体系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

做过大数据的伙伴应该都清楚,数据的质量是直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理数据治理的关键所在。

而最近我们在所进行的数据治理项目的过程中就对数据质量标准和质量规则进行了梳理,数据的质量是从六个维度进行衡量,每个维度都从一个侧面来反映数据的品相。
根据检验复杂的程度由低到高,这六个维度分别是:完整性、及时性、唯一性、一致性、规范性和准确性。

在这里插入图片描述
那么,相应的每一个检核维度又可以参考以下的质量规则来对数据进行校核:
完整性

  • 空值或者无效:检查字段是否为空;检查数值是否为0
  • 记录数异常:检查源表和目标表的记录条数是否一致

及时性

  • 时间切片缺失:检查是否有缺失日期数据

唯一性

  • 存在冗余:检查是否有重复数据(技术主键和业务主键)

一致性

  • 映射异常:源表和目标表中直接映射的字段值相同
  • 无法关联:检查外键是否正确
  • 违反交叉验证规则:数值交叉校验规则和特定值交叉校验规则

规范性

  • 违反码值规范:值域约束——代码表值域约束
  • 违反格式规范:日期格式是否正确;利用通用格式规则对字段进行检核,如身份证
  • </
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值