节点分区数据仓库:实验证据与改进
在数据仓库领域,高效的数据分区和查询处理策略至关重要。本文将深入探讨节点分区数据仓库(NPDW)的相关内容,包括基本的分区和处理策略、实验结果分析以及分区和连接处理的相关问题。
1. 研究背景与目标
以往针对通用数据库的研究,未充分考虑数据仓库的特性。这些研究主要利用查询工作负载来确定合适的分区属性,与典型查询访问模式相关。Rao等人通过预测不同分区属性选择和查询处理路径的成本来优化分区属性选择,但该方法需紧密集成放置成本预测器和查询优化器,应用受限。
我们的工作聚焦于评估和分析通用数据分区策略,独立于底层数据库服务器,针对节点分区数据仓库,改进基于非工作负载的基本分区策略。通过简单的工作负载和模式确定分区与复制,旨在找到能在NPDW中实现近似线性加速的分区和放置策略。
2. NPDW的基本分区策略
对于星型模式,基本分区和放置策略是复制维度表,分区事实表。由于数据不常更改,仅定期加载新数据,因此大量复制是可行的。事实表可采用随机或轮询分区策略。
这种策略的目的是并行处理最大的关系,同时在每个节点本地处理耗时操作(如连接和聚合),从而最小化节点间通信。以下是一个简单的OLAP查询示例:
OP(…)
JOIN (F, D1, …, Dn)
GROUP (G1,..Gm);
其中, OP 是聚合运算符,如 SUM 、 COUNT 。
每个节点独立处理部分查
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



