数据质量与成本管理:保障数据价值的关键要素
1. 数据质量保障
1.1 非功能需求
在设计质量可观测性服务时,需要考虑一些关键的非功能需求(NFRs):
- 及时性 :能够及时执行数据质量检查,更快地发现问题。
- 可扩展性 :解决方案能与多个数据系统协同工作。
- 可伸缩性 :设计方案要能处理大量数据(PB 级别)。
- 直观性 :允许用户可视化数据质量仪表盘,并个性化其视图。
1.2 实施模式
质量可观测性服务有三个自动化级别,对应不同的任务组合自动化,旨在解决当前手动或低效的任务:
| 模式 | 描述 |
| ---- | ---- |
| 准确性模型模式 | 自动创建模型以大规模验证数据的准确性 |
| 基于剖析的异常检测模式 | 自动检测质量异常,同时减少误报 |
| 避免模式 | 主动防止低质量记录污染数据集 |
1.2.1 准确性模型模式
该模式通过计算增量数据记录与现有源数据集之间的差异,来计算数据集的准确性。具体步骤如下:
1. 用户定义黄金数据集作为真实来源,确定数据的理想属性,如属性数据类型、值范围等,并定义映射规则,指定数据记录与黄金数据集之间列值的匹配。例如,规定电话号码列不能为空。用户还可以定义自己的特定函数。
2. 将映射规则作为质量作业持续运行,以计算数据质量指标。可以为不同的数据列定义指标,如行数、压缩字节数、空值计数
超级会员免费看
订阅专栏 解锁全文
1215

被折叠的 条评论
为什么被折叠?



