37、数据仓库加载与维度表处理全解析

数据仓库加载与维度表处理全解析

1. 数据评估与提取基础

在进行数据仓库加载时,数据评估是关键的第一步。列统计分析对于事实表源评估非常有价值,因为事实表中的度量值几乎总是基于数值的。数据探查任务的输出有助于识别源数据的值质量和范围,这自然会引导我们利用这些输出结果来制定 ETL 设计。

评估源数据的典型第一步是检查源键列的存在以及源表或文件之间的引用完整性。数据探查的两个输出可以帮助完成这项工作:
- 候选键分析 :提供具有最高唯一性的列(或列组合)。确定 100% 唯一的候选键(或复合键)至关重要,因为在加载维度表和事实表时,需要知道如何识别新的或现有的源记录。
- 列 NULL 比率 :这是数据探查任务的另一个重要输出。可用于验证源表中的外键是否完整,特别是当主键 - 外键关系用于关联维度表和事实表,或维度表和另一个维度表时。

例如,在之前的步骤中,“Territory Name” 的 NULL 比率约为 17%。在维度模型目标中,这是一个问题,因为员工维度有一个指向销售区域维度的外键代理键。由于销售区域数据不完整,就无法引用该维度,这是在维度 ETL 部分需要解决的问题。

数据探查任务的其他有用输出包括列长度和统计信息。数据类型优化很重要,当源列很大但大部分空间未被使用时(如 char(1000)),可以使用列长度分布来将数据类型缩小到合理长度。列统计信息有助于定义度量值的数据类型,事实表的数据类型优化比维度表更重要,应考虑源列的最大值和最小值来确定度量值的数据类型。

评估完源数据后,下一步是进行数据提取,即 ETL 中的 “E”。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值