数据仓库加载与维度表处理全解析
1. 数据评估与提取基础
在进行数据仓库加载时,数据评估是关键的第一步。列统计分析对于事实表源评估非常有价值,因为事实表中的度量值几乎总是基于数值的。数据探查任务的输出有助于识别源数据的值质量和范围,这自然会引导我们利用这些输出结果来制定 ETL 设计。
评估源数据的典型第一步是检查源键列的存在以及源表或文件之间的引用完整性。数据探查的两个输出可以帮助完成这项工作:
- 候选键分析 :提供具有最高唯一性的列(或列组合)。确定 100% 唯一的候选键(或复合键)至关重要,因为在加载维度表和事实表时,需要知道如何识别新的或现有的源记录。
- 列 NULL 比率 :这是数据探查任务的另一个重要输出。可用于验证源表中的外键是否完整,特别是当主键 - 外键关系用于关联维度表和事实表,或维度表和另一个维度表时。
例如,在之前的步骤中,“Territory Name” 的 NULL 比率约为 17%。在维度模型目标中,这是一个问题,因为员工维度有一个指向销售区域维度的外键代理键。由于销售区域数据不完整,就无法引用该维度,这是在维度 ETL 部分需要解决的问题。
数据探查任务的其他有用输出包括列长度和统计信息。数据类型优化很重要,当源列很大但大部分空间未被使用时(如 char(1000)),可以使用列长度分布来将数据类型缩小到合理长度。列统计信息有助于定义度量值的数据类型,事实表的数据类型优化比维度表更重要,应考虑源列的最大值和最小值来确定度量值的数据类型。
评估完源数据后,下一步是进行数据提取,即 ETL 中的 “E”。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



