数据仓库的数据质量与元数据管理
1. 数据质量自动修复与规则
在数据仓库中实施自动修复操作时需格外谨慎,因为源系统中的数据可能仍然是错误的。通常,在源系统中修复数据比在数据仓库中修复更好。但如果无法在源系统中更改数据,或者在源系统中修复数据需要很长时间,那么在数据仓库中进行自动修复可以作为一种临时解决方案。
1.1 数据质量规则自动修复示例
以格式化操作为例,在源系统的产品表格式列中,存在 “DVD 5”、“DVD - 5” 和 “DVD5” 等不同格式的条目,而在 ODS 或 NDS 中期望的格式是 “DVD - 5”。在从源系统加载产品表时,可以创建一个数据质量(DQ)规则,将这些不同格式的条目转换为 “DVD - 5”。
1.2 DQ 规则与 ETL 转换的区别
有人认为这应该作为 ETL 逻辑中的常规 “转换” 来实现,但 DQ 规则与 ETL 转换有明显区别,主要体现在报告方面。例如,“DVD 5”、“DVD - 5” 和 “DVD5” 之间的不一致表明源系统存在问题,即产品表到格式表缺乏引用完整性。我们已将此问题报告给源系统所有者,预计几周内修复,但在此期间需要保持数据仓库的正常运行,因此设置了该 DQ 规则。由于这是一个带有自动修复操作的 DQ 规则,会定期向相关人员报告,以便了解问题是否已解决。而如果作为 ETL 转换实现,可能不会进行报告和监控,且报告和监控所有 ETL 转换会降低 ETL 流程的速度。此外,ETL 转换不如 DQ 规则丰富,DQ 规则包含以下信息:
- 规则的目标(包括可能的计算)
- 是错误、警告还是信息性提示
- 验证类型(输入数据验证、交叉引用验证或内部验证)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



