初识大数据(三. Hadoop与MPP数据仓库)

本文探讨MPP大规模并行处理数据库系统与Hadoop技术栈的特性与应用场景。MPP适用于低延迟、完整事务处理的场景,而Hadoop则擅长处理PB级数据,支持多种数据类型。两者各有优势,常用于不同业务需求。

  MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法。 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。 MPP DBMS是建立在这种方法之上的数据库管理系统。在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程,它们的运行时间比传统的SMP RDBMS系统快得多。该架构的另一个优点是可扩展性,因为可以通过添加新节点扩展网格。为了能够处理大量的数据,这些解决方案中的数据通常在每个节点只处理其本地数据的方式在节点(分片)之间分割。这是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前技术上可实现512个节点互联,数千个CPU。MPP有对SQL的完整兼容和一些事务处理功能,如果数据扩展需求不是特别大,数据都是结构化数据,习惯使用传统RDBMS,可以选择MPP数据仓库。

目前有很多关于hadoop技术栈与MPP数据仓库的讨论与对比,很多观点认为hadoop可以替代MPP,但是从下表的比对可以看出两者的差异,对于不同的场景以及MPP技术的发展,应该还是处于并存的状态。另外,基于复杂的数据场景下,混合框架的使用,也还是会存的。我们团队就使用混合框架构建了数据中心,从而完善OLTP能力。

以下是两者的比较:

特性

Hadoop

MPP数据仓库

计算节点数

可到数千个

一般1000个以内

数据量

支持大于10P

一般不大于10P

数据类型

关系型,半关系型,无结构化,语音,图像,视频

关系型

时延

中/高

低(但还是要看数据量和维度的数量)

应用生态

创新型/人工智能

传统数据库型/BI类

应用开发接口

SQL,MR,丰富的编程语言接口

标准数据库SQL

可扩展性

无穷的可能,完整的编程接口

有限扩展能力,主要通过UDF支持

事务支持

有限

完整

价格

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值