数据仓库中物化视图选择与维护的优化策略
1. 并发查询与一致性保证
在数据仓库的更新处理中,当每个更新消息到达时,可以为所有更新和数据源并发地发出查询。补偿算法可确保一致性,而按相应更新的到达顺序安装视图的限制则保证了一致性的完整性。
1.1 并发 Posse 算法
并发 Posse 算法在计算模型中运行,以大消息大小为代价定义了并发的极端情况,从而在并发 Posse 和现有算法之间实现一系列解决方案。不过,该算法可能不切实际,因为每次更新都要求传输所有基本关系会导致消息大小过大。而且,如果数据仓库在收到更新消息后立即发送所有查询,此时可能没有足够的信息来优化查询。这为我们提供了一个权衡整体效率的两个因素的机会:并发度和消息大小。
1.2 Posse 框架的引入
Posse 框架和优化的 Posse 算法在已介绍的计算模型中运行,提供了一个可以方便地进行这种权衡的框架。我们对模式和更新处理施加概念结构,使用有根有向图来表示所使用算法的组织。
2. 模式与有根有向无环图(DAG)
在数据仓库中,策略为每个数据源关联一个查询计划,用于处理从该数据源接收到的每个更新消息。每个查询计划表示针对特定数据源的更新消息发出探测的调度。我们将每个这样的查询计划表示为有根有向无环图(有根 DAG),视图查询的 FROM 子句中每个关系的出现对应一个顶点。
2.1 DAG 的结构与含义
- 每个非根顶点关联一个查询,用于探测相应数据源中与该关系实例在查询处理中使用相关的数据。
- 每个顶点都有标签,与该顶点关联的任何更新消息、探测或数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



