F&A:并行关系型数据仓库设计方法解析
在数据仓库的设计中,如何高效地进行数据分区和分配是一个关键问题。F&A作为一种创新的并行关系型数据仓库(PRDW)设计方法,为解决这一问题提供了新的思路。下面将详细介绍F&A方法的核心内容,包括数据分区、数据分配、算法步骤以及实验评估等方面。
1. 数据分区与初始解优化
在数据分区阶段,首先会生成初始解 (I_0),然后使用爬山启发式算法对其进行迭代改进。具体步骤如下:
1. 持续迭代,直到无法进一步降低查询集 (Q) 的总查询处理成本,同时满足存储和处理约束,以及维护约束 (W)。
2. 由于从数据仓库模式(DWS)生成的分区方案候选数量是有限的,爬山启发式算法最终会完成执行,找到最终解 (I_F),确保了初始解在理论上的收敛性。
2. 改进解决方案
为了进一步降低总查询处理成本,引入了两个专门的操作符:Merge和Split。
- Merge操作符 :
- 输入:维度表 (D_j) 的分区属性 (A_k) 的分区方案 (FS(D_j)) 中的两个域分区 (P_p^D(A_k)) 和 (P_q^D(A_k))。
- 输出:生成一个新的分区方案 (FS’(D_j)),其中 (P_p^D(A_k)) 和 (P_q^D(A_k)) 合并为一个单例域分区 (P_{p,q}^D (A_k))。
- 形式化定义:(Merge : \langle A_k, D_j, FS(D_j), P_p^D(A_k), P_q^D(A_k) \rangle \to \langle A_k, D_j, FS’(D_j),
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



