数据仓库增量设计的随机方法
1. 引言
数据仓库(DW)是一个集成了来自多个数据源信息的存储库,主要用于在线分析处理(OLAP)和决策支持系统(DSS)应用。如今的数据仓库积累了海量数据,而OLAP查询是复杂且数据密集型的,涉及分组/聚合和顺序扫描,因此数据仓库中的查询评估必须高效,以确保为分析师提供快速的答案。同时,数据仓库中的数据需要根据源数据的更新进行最终更新。
数据仓库通常被视为一组基于数据源关系定义的物化视图,这些视图决定了数据仓库的模式和内容。为了实现高查询性能,查询仅使用物化视图进行评估。一组查询的查询评估成本是指将这些查询完全重写后在物化视图上进行评估的成本。物化视图通常采用增量维护策略,即仅根据源关系的变化计算必须应用于视图的更改。数据仓库视图维护成本是指将源关系的更改传播到受这些更改影响的物化视图的成本。
在数据仓库设计中,一个核心问题是在给定一组输入查询的情况下,选择要物化的视图。设计数据仓库时,一个重大挑战是最小化查询评估成本。然而,维护物化视图是一个耗时的过程,会使部分数据在查询时不可用。因此,为了确保存储数据的充分可用性和令人满意的查询响应时间,必须在降低查询评估成本和增加视图维护成本之间取得平衡。许多方法试图通过利用输入查询之间的公共子表达式,选择合适的视图进行物化,以最小化查询评估和视图维护成本的组合。
数据仓库是动态的,会随着时间不断发展。随着分析师需求的增加,数据仓库需要满足新的查询。有些新查询可以由数据仓库中已物化的视图回答,但通常需要添加新的物化视图来回答新查询或提高新查询的评估性能。重新从头实现整个数据仓库来处理新查询既复杂又会导致数据长时间不可用。之前提出了一种增量方法,避免了重新实现,该方法选择新的视图进行物化,以
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



