要想提升数据质量,最重要的就是“早发现,早恢复”:
早发现,是要能够先于数据使用方发现数据的问题,尽可能在出现问题的源头发现问题,这样就为“早恢复”争取到了大量的时间。早恢复,就是要缩短故障恢复的时间,降低故障对数据产出的影响。
那具体如何做到这两个早呢?我总结了一套数据质量建设的方法,包括这样几个内容。
添加稽核校验任务
在数据加工任务中,对产出表按照业务规则,设计一些校验逻辑,确保数据的完整性、一致性和准确性,这是提升数据质量最行之有效的方法。
通常建议你在数据产出任务运行结束后,启动稽核校验任务对数据结果进行扫描计算,判断是否符合规则预期。如果不符合,就根据提前设定的强弱规则,触发不同的处理流程。
如果是强规则,就立即终止任务加工链路,后续的任务不会执行,并且立即发出电话报警,甚至我们要求,关键任务还要开启循环电话报警,直到故障被认领;如果是弱规则,任务会继续执行。但是存在风险,这些风险会通过邮件或者短信的方式,通知到数据开发,由人来进一步判断风险严重程度。

那具体要加哪些稽核规则呢?
完整性规则。主要目的是确保数据记录是完整的,不丢失。常见的稽核规则有表数据量的绝对值监控和波动率的监控(比如表波动超过 20%,就认为是异常)。还有主键唯一性的监控,它是判断数据是否有重复记录的监控规则,比较基础。除了表级别的监控,还有字段级别的监控(比如字段为 0、为 NULL 的记录)。
一致性规则。主要解决相关数据在不同模型中一致性的问题。商品购买率是通过商品购买用户数除以商品访问 uv 计算而来的,如果在不同的模型中,商品购买用户数是 1W、商品访问 uv10W,商品购买率 20%,那这三个指标就存在不一致。
准确性规则。主要解决数据记录正确性的问题。常见的稽核规则有,一个商品只能归属在一个类目,数据格式是不是正确的 IP 格式,订单的下单日期是还没有发生的日期等等。
它们是强规则还是弱规则,取决于业务对上述异常的容忍度(比如涉及到交易、支付跟钱相关的,一般都
如何提高数据质量
最新推荐文章于 2024-05-15 19:06:59 发布
本文介绍了提高数据质量的关键在于「早发现,早恢复」,提出了数据质量建设的方法,包括添加稽核校验任务以确保数据完整性、一致性和准确性,建立全链路监控,通过智能预警确保任务按时产出,以及根据应用重要性区分数据等级以加快恢复速度。稽核规则包括完整性、一致性、准确性三个方面,并结合业务容忍度设定强弱规则。

最低0.47元/天 解锁文章
1578

被折叠的 条评论
为什么被折叠?



