数据仓库模型开发的关键步骤与策略
在数据仓库的构建过程中,有一系列关键步骤和策略,它们对于确保数据仓库满足业务需求、提高性能以及降低成本起着至关重要的作用。下面将详细介绍这些步骤和策略。
数据保留与清理
数据通常仅需保留 13 个月,之后可提高数据粒度。档案处理过程需要定期从数据仓库中清除部分数据,以避免数据在线保留。这第四步需要与第一步——选择感兴趣的数据相结合。当需要更高(即更详细)的粒度级别时,第一步变得愈发重要。对于一家每天有 100 万笔交易的零售公司而言,保留的每个属性都要乘以这个数字,保留无关数据元素的后果将变得十分严重。
第四步是确保数据仓库满足业务需求的最后一个必要步骤。其余步骤虽然也很重要,但即使不执行这些步骤,数据仓库也应该能够满足业务需求。接下来的步骤旨在降低成本或提高整个数据仓库环境的性能。
如果数据仓库相对较小,数据仓库开发人员可以考虑在仅完成前四个步骤后就开始创建第一个数据集市。虽然数据交付过程的性能可能不是最优的,但已经创建了足够多的数据仓库来提供所需的业务信息,并且用户可以在开发与性能相关的改进时积累经验。根据数据交付过程的性能,再选择执行最后四个步骤中的适当步骤。
步骤五:汇总数据
开发数据仓库模型的第五步是创建汇总数据。创建汇总数据可能不会节省磁盘空间,因为用于创建汇总的数据细节可能会继续保留。然而,它将提高数据交付过程的性能。最常见的汇总标准是时间,因为仓库中的数据通常代表某个时间点(例如,一天结束时的库存物品数量)或一段时间(例如,一天内销售的物品数量)。汇总数据的一些好处包括减少在线存储需求(细节可以存储在备用存储设备中)、分析的标准化以及提高数据交付性能。汇总数据有五种类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



