24、数据仓库维度表处理全解析

数据仓库维度表处理全解析

1. 多客户集的合并与去重

在数据仓库中,处理多客户集时,需要进行合并与去重操作。首先,会有各部门的客户列表,如部门 1、部门 2 直至部门 N 的客户列表。之后,会对这些列表进行修订,形成修订后的主客户列表。
这个过程包含以下步骤:
- 合并列表:基于多个属性对不同部门的客户列表进行合并。
- 变更数据捕获:具体可参考图 5.17。
- 去重:去除重复的客户记录。
- 检索/分配数据仓库主自然键:为客户分配唯一的标识。

合并和去重后的结果,会形成一种企业级的客户 ID,对于任何给定的客户,该 ID 会随时间保持不变。在数据整合步骤中,属于数据整合模块的一部分,需要将原始数据源中描述客户同一方面的所有属性转换为所有部门都使用的单一值。例如,要为客户建立一组单一的地址字段。最后,在合并(留存)步骤,即交付模块的一部分,将各个源系统中剩余的单独属性合并为一个大而宽的维度记录。

2. 小维度表的特点与处理

数据仓库中的许多维度是小型查找表,只有几条记录和一两个列。例如,许多事务粒度的事实表有事务类型维度,为每种事务提供标签。这些表通常通过在电子表格中输入数据并直接加载到最终的物理维度表中构建。原始的源电子表格应该保留,因为在很多情况下,新的记录(如新的事务类型)可能会被引入业务。

虽然像事务类型这样的小维度可能出现在许多不同的数据集市中,但这个维度不能也不应该在各个事实表之间进行整合。事务类型对于每个生产系统都是唯一的。

在某些情况下,用于解码操作值的小维度表可以合并为一个更大的维度。这纯粹是一种战术手段,旨在减少事实表中的外键数量。一些数据源有十

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值