数据质量保障:流程、清洗与匹配
1. 数据质量流程概述
数据质量流程旨在确保数据仓库中的数据准确且完整。该流程主要包括检查、报告和纠正三个方面。
1.1 流程示例
以 Amadeus 娱乐案例为例,客户可以购买产品或订阅套餐。客户首次订阅套餐的日期称为首次订阅日期,最近取消订阅的日期称为最后取消日期。若 ETL 过程提取的客户记录中,最后取消日期早于首次订阅日期,这显然是无效情况。数据质量流程会检测到这种情况,并向负责订阅数据的人员报告,随后他们会在源系统中纠正数据,再将其加载到数据仓库。
1.2 数据质量组件
数据质量流程涉及多个组件,具体如下:
| 组件 | 描述 |
| — | — |
| 数据防火墙 | 检查传入数据的程序,物理上可以是 SSIS 包或存储过程 |
| 元数据 | 存储数据质量规则的数据库,如“最后取消日期必须大于首次订阅日期” |
| DQ 数据库 | 存储数据防火墙检测到的不良数据 |
| DQ 报告和通知 | 定期读取 DQ 数据库,并将信息告知负责数据质量的人员 |
| 纠正 | 在源系统中纠正数据的过程 |
1.3 数据处理流程
阶段 ETL 从源系统提取数据并加载到阶段数据库。数据防火墙根据元数据数据库中的数据质量规则检查数据,若数据满足规则,则传递给 ODS ETL 并放入 ODS;若不满足,则放入 DQ 数据库,同时记录审计信息。
DQ 报告和通知会定期读取 DQ 数据库,将问题报告给相关人员,他们会在源系统中修复数据,以便下次提取时数据正确。此外,还有一类数据
超级会员免费看
订阅专栏 解锁全文
1037

被折叠的 条评论
为什么被折叠?



