10、高效且高可用的网格数据仓库部署策略

高效且高可用的网格数据仓库部署策略

1. 引言

传统数据仓库会将分布式运营数据传输到中心站点构建仓库,虽可置于并行机器以支持复杂分析查询,但面对全球组织产生的海量地理分布式数据,这种集中式模型可能不够适用,构建集中式环境成本高且耗资源和时间。

近年来,网络系统带宽和可扩展性显著提升,联网计算机取代了许多集中式解决方案。网格作为一种基础设施,能连接高度分布且可能异构的资源,为全球组织参与者提供分布式数据仓库的高效透明查询支持。不过,构建基于网格的数据仓库需考虑资源异构性和可用性变化,因此需要特殊的数据分配和查询调度策略。

2. 从并行到基于网格的数据仓库

数据仓库主要用于决策支持,通常采用星型模式,包含事实表和维度表。为提高复杂分析查询的响应时间,文献中提出了特殊索引结构、物化视图和并行处理等技术。

2.1 并行和分布式数据仓库

并行和分布式数据库的实现研究已有数十年,尤其在数据分配和查询调度领域。影响其性能的因素包括元组放置、选择性和异构性偏差等,为减少这些偏差的影响,提出了专门的数据分区和放置策略。
- MDHF :Stöhr等人提出的多维层次碎片化策略,用于共享磁盘并行系统,基于维度属性对事实表进行分区,可提升OLAP查询性能。
- PowerDB :Röhm等人在该系统中比较了两种数据放置策略,混合方法能获得更高吞吐量。
- 虚拟分区 :Akal等人提出的数据库分配方案,通过全复制数据、创建聚簇主键索引和虚拟分区,可实现集群式数据仓库的查询内并行性,但分区边界选择是

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值