确定性视图选择:数据分析查询的特性与算法
1. 引言
在数据密集型系统(如商业或科学数据仓库)中,数据分析查询被广泛应用。这些系统存储着海量的数据,并且数据规模还在不断增长。回答典型的数据分析查询往往需要对大量存储数据进行汇总,这使得查询过程复杂且耗时。
为了降低数据分析查询的评估成本,关系型数据密集型系统常使用物化视图,即预先计算并存储的额外关系。当视图关系代表了查询中某个子表达式的预计算结果时,它可以提高查询评估的效率。尤其是带有分组和聚合的物化视图,能以紧凑的形式存储大量数据的预处理结果,对数据分析查询特别有吸引力。
理想情况下,为了最大化查询处理效率,所有“有益视图”都应该被预先计算并存储(物化)。然而,存储空间和计算限制通常会限制可物化视图的数量。因此,需要在每个具体场景的目标和限制条件下,解决选择合适的物化视图集合(即视图格中所有视图的一个子集)的问题,这就是视图选择问题。
近年来,许多研究人员在确定性环境(即所有查询都已知且预先给定)下对该问题进行了研究。本文在Asgharzadeh及其同事的工作基础上,提出了更有效的解决方法。具体来说:
- 研究最优解中出现的视图特性,提出有效技术来缩小视图搜索空间和相应整数规划(IP)模型的规模,且保证缩小后的IP模型的最优解也是原问题的最优解,并通过计算实验验证该方法的有效性。
- 提出与视图格中每个视图相关的有效性度量(成本效益比),并利用该度量设计启发式算法来解决较大规模的问题,同样通过计算实验验证算法的有效性。
- 讨论如何利用成本效益比设计其他启发式算法来解决实际规模的问题。
2. 相关工作
视图选择问题在文献中已经得到了广泛
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



