自我理解:
MPP为并行数据库,每个节点都是计算资源,把任务拆分N份,节点分别计算,最后统一汇总。类似于传统的数据库,现阶段数据处理快。Shared nothing架构。
MR适合批处理,采用类似二分类算法,前提是计算资源充足的情况下,效率最大化。
摘抄:
真实的TPC-DS测试比较
根据上面的分析,我们不难看出MPP数据库的优势,下面我们选取同样都是底层文件系统采用Hadoop的HDFS分布式文件系统作为数据存储,上层采用MPP技术的HAWQ与采用Map Reduce的Hive在TPC-DS基准测试中的对比结果吧(数据来自:1):
- 性能:简单查询性能相当;HAWQ在处理复杂语句的性能是Hive的三四倍左右。
- 对复杂查询的支持:Hive只支持基准测试99条语句中的66条,而HAWQ支持全部。
总结
Map Reduce计算模型在计算资源无限、数据无相关性的情况下很容易具有良好的扩展性,特别适用于计算网格等领域或者简单数据库查询的处理上。但是就目前而言,在实现数据库管理系统领域,它仍然受限与资源分配、数据相关性等因素的制约,很难达到MPP发展的高度。不过技术发展日新月异,也许不出时日,它就能突破这些障碍,或者与MPP技术结合,或许有新技术助力,追平甚至超越MPP数据库也是很有可能的。
来自 <https://blog.youkuaiyun.com/dreamy_lin/article/details/81391859>
https://blog.youkuaiyun.com/rav009/article/details/82462650 这篇文字可以借鉴一下 主要是share everything/disk/nothing 的解释