数据仓库维度表处理全解析
1. 多客户集的合并与去重
在数据仓库中,处理多客户集时,需要进行合并与去重操作。首先,会有各部门的客户列表,如部门 1、部门 2 直至部门 N 的客户列表。之后,会对这些列表进行修订,形成修订后的主客户列表。
这个过程包含以下步骤:
- 合并列表:基于多个属性对不同部门的客户列表进行合并。
- 变更数据捕获:具体可参考图 5.17。
- 去重:去除重复的客户记录。
- 检索/分配数据仓库主自然键:为客户分配唯一的标识。
合并和去重后的结果,会形成一种企业级的客户 ID,对于任何给定的客户,该 ID 会随时间保持不变。在数据整合步骤中,属于数据整合模块的一部分,需要将原始数据源中描述客户同一方面的所有属性转换为所有部门都使用的单一值。例如,要为客户建立一组单一的地址字段。最后,在合并(留存)步骤,即交付模块的一部分,将各个源系统中剩余的单独属性合并为一个大而宽的维度记录。
2. 小维度表的特点与处理
数据仓库中的许多维度是小型查找表,只有几条记录和一两个列。例如,许多事务粒度的事实表有事务类型维度,为每种事务提供标签。这些表通常通过在电子表格中输入数据并直接加载到最终的物理维度表中构建。原始的源电子表格应该保留,因为在很多情况下,新的记录(如新的事务类型)可能会被引入业务。
虽然像事务类型这样的小维度可能出现在许多不同的数据集市中,但这个维度不能也不应该在各个事实表之间进行整合。事务类型对于每个生产系统都是唯一的。
在某些情况下,用于解码操作值的小维度表可以合并为一个更大的维度。这纯粹是一种战术手段,旨在减少事实表中的外键数量。一些数据源有十
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



