数据管理篇之数据质量

本文介绍了数据质量的四个关键原则:完整性、准确性、一致性和及时性,并详细阐述了数据资产的五个等级及其应用场景。针对数据加工过程,提出了在线系统和离线系统的卡点校验方法,以及风险点监控策略,如使用BCP和DQC工具。同时,讨论了数据质量的衡量标准,如数据质量起夜率和事件。此外,还涉及数据质量故障的定义、等级和处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第15章 数据质量

1.数据质量保障原则

完整性
准确性
一致性
及时性

2.数据质量方法概述

  • 消费场景知晓

(1)数据资产定义

分为五个等级:
① 毁灭性质(A1),数据一旦出错,将会引起重大资产损失,面临重大受益损失,造成重大公共风险;
② 全局性质(A2),数据直接或间接用于集团业务和效果的评估、重要平台的运维、对外数据产品的透露、影响用户在阿里系网站的行为等;
③ 局部性质(A3),数据直接或间接用于内部一般数据产品或者运营 / 产品报告,如果出现问题会给事业部或业务线造成影响,或者造成工作效率损失;
④ 一般性质(A4),数据主要用于小二的日常数据分析,出现问题几乎不会带来影响或者影响很小;
⑤ 未知性质(Ax),不能明确说出数据的应用场景,则标注为未知;
注:A1>A2>A3>A4>Ax,如果一份数据出现在多个应用场景中,则遵循就高原则

(2)数据资产等级落地方法

先给不同数据产品或者应用划分数据资产等级,再依托元数据的上下游血缘,可以将整个加工消费链打上某一类数据资产的标签。

  • 数据加工过程卡点校验

(1)在线系统卡点校验

主要是指在在线业务系统的数据生成过程中进行的卡点校验。
问题:在线数据和离线数据的一致性
方法:工具和人双管齐下

工具:首先是发布平台,其次是数据库表的变化感知
人:须知哪些是重要的核心数据资产,须知哪些只是内部数据分析使用

(2)离线系统卡点校验

首先是代码提交时的卡点校验
其次是任务发布上线时的卡点校验
最后是结点变更或数据重刷前的变更通知

  • 风险点监控

(1)在线数据风险点监控

在线业务系统的数据生产过程需要保证数据质量,主要根据业务规则对数据进行监控。阿里巴巴主要采用实时业务检测平台 BCP ,用于保障在线系统的数据质量。

(2)离线数据风险点监控

① 数据准确性

阿里巴巴主要使用DQC来保障数据的准确性。

② 数据及时性

任务优先级:首先确定业务的资产等级,等级高的业务所对应的消费节点自然配置高优先级,一般业务则对应低优先级,确保高等级业务准时产出。
任务报警:和优先级类似,也是通过叶子节点传递;实时监控
摩萨德:根据离线任务的运行情况实时决策是否告警、何时告警、告警方式、告警给谁等。包括强保障监控和自定义监控。

  • 质量衡量

(1)数据质量起夜率
(2)数据质量事件
(3)数据质量故障体系

故障定义
故障等级
故障处理
故障review

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Listen·Rain

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值