高效且高可用的网格数据仓库部署策略
1. 引言
传统数据仓库会将分布式运营数据传输到中心站点构建仓库,虽可置于并行机器以支持复杂分析查询,但面对全球组织产生的海量地理分布式数据,这种集中式模型可能不够适用,构建集中式环境成本高且耗资源和时间。
近年来,网络系统带宽和可扩展性显著提升,联网计算机取代了许多集中式解决方案。网格作为一种基础设施,能连接高度分布且可能异构的资源,为全球组织参与者提供分布式数据仓库的高效透明查询支持。不过,构建基于网格的数据仓库需考虑资源异构性和可用性变化,因此需要特殊的数据分配和查询调度策略。
2. 从并行到基于网格的数据仓库
数据仓库主要用于决策支持,通常采用星型模式,包含事实表和维度表。为提高复杂分析查询的响应时间,文献中提出了特殊索引结构、物化视图和并行处理等技术。
2.1 并行和分布式数据仓库
并行和分布式数据库的实现研究已有数十年,尤其在数据分配和查询调度领域。影响其性能的因素包括元组放置、选择性和异构性偏差等,为减少这些偏差的影响,提出了专门的数据分区和放置策略。
- MDHF :Stöhr等人提出的多维层次碎片化策略,用于共享磁盘并行系统,基于维度属性对事实表进行分区,可提升OLAP查询性能。
- PowerDB :Röhm等人在该系统中比较了两种数据放置策略,混合方法能获得更高吞吐量。
- 虚拟分区 :Akal等人提出的数据库分配方案,通过全复制数据、创建聚簇主键索引和虚拟分区,可实现集群式数据仓库的查询内并行性,但分区边界选择是
超级会员免费看
订阅专栏 解锁全文
49

被折叠的 条评论
为什么被折叠?



