13、F&A：并行关系型数据仓库设计方法解析-优快云博客

本文链接：https://blog.youkuaiyun.com/p5l2m9n4o6q/article/details/153253480

F&A：并行关系型数据仓库设计方法解析

在数据仓库的设计中，如何高效地进行数据分区和分配是一个关键问题。F&A作为一种创新的并行关系型数据仓库（PRDW）设计方法，为解决这一问题提供了新的思路。下面将详细介绍F&A方法的核心内容，包括数据分区、数据分配、算法步骤以及实验评估等方面。

1. 数据分区与初始解优化

在数据分区阶段，首先会生成初始解 (I_0)，然后使用爬山启发式算法对其进行迭代改进。具体步骤如下：
1. 持续迭代，直到无法进一步降低查询集 (Q) 的总查询处理成本，同时满足存储和处理约束，以及维护约束 (W)。
2. 由于从数据仓库模式（DWS）生成的分区方案候选数量是有限的，爬山启发式算法最终会完成执行，找到最终解 (I_F)，确保了初始解在理论上的收敛性。

2. 改进解决方案

为了进一步降低总查询处理成本，引入了两个专门的操作符：Merge和Split。
- Merge操作符 ：
- 输入：维度表 (D_j) 的分区属性 (A_k) 的分区方案 (FS(D_j)) 中的两个域分区 (P_p^D(A_k)) 和 (P_q^D(A_k))。
- 输出：生成一个新的分区方案 (FS’(D_j))，其中 (P_p^D(A_k)) 和 (P_q^D(A_k)) 合并为一个单例域分区 (P_{p,q}^D (A_k))。
- 形式化定义：(Merge : \langle A_k, D_j, FS(D_j), P_p^D(A_k), P_q^D(A_k) \rangle \to \langle A_k, D_j, FS’(D_j),