30、数据仓库的数据质量与元数据管理

数据仓库的数据质量与元数据管理

1. 数据质量自动修复与规则

在数据仓库中实施自动修复操作时需格外谨慎,因为源系统中的数据可能仍然是错误的。通常,在源系统中修复数据比在数据仓库中修复更好。但如果无法在源系统中更改数据,或者在源系统中修复数据需要很长时间,那么在数据仓库中进行自动修复可以作为一种临时解决方案。

1.1 数据质量规则自动修复示例

以格式化操作为例,在源系统的产品表格式列中,存在 “DVD 5”、“DVD - 5” 和 “DVD5” 等不同格式的条目,而在 ODS 或 NDS 中期望的格式是 “DVD - 5”。在从源系统加载产品表时,可以创建一个数据质量(DQ)规则,将这些不同格式的条目转换为 “DVD - 5”。

1.2 DQ 规则与 ETL 转换的区别

有人认为这应该作为 ETL 逻辑中的常规 “转换” 来实现,但 DQ 规则与 ETL 转换有明显区别,主要体现在报告方面。例如,“DVD 5”、“DVD - 5” 和 “DVD5” 之间的不一致表明源系统存在问题,即产品表到格式表缺乏引用完整性。我们已将此问题报告给源系统所有者,预计几周内修复,但在此期间需要保持数据仓库的正常运行,因此设置了该 DQ 规则。由于这是一个带有自动修复操作的 DQ 规则,会定期向相关人员报告,以便了解问题是否已解决。而如果作为 ETL 转换实现,可能不会进行报告和监控,且报告和监控所有 ETL 转换会降低 ETL 流程的速度。此外,ETL 转换不如 DQ 规则丰富,DQ 规则包含以下信息:
- 规则的目标(包括可能的计算)
- 是错误、警告还是信息性提示
- 验证类型(输入数据验证、交叉引用验证或内部验证)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值