记录: map-reduce design pattern
初始化应该尽可能放到 configure中
例子1.word count
优缺点:
===================================
Combiner Design
(mean1+mean2)/cnt = mean
combiner可能运行 也可能不运行
=======================================================================
新的思路:压缩pair
两中方法的比较 stripes 较好的线性扩展性
机器数量的影响
====================================================================
===============
==================================
总结:
摘录自:
Massive Data Processing/Cloud Computing

本文探讨了MapReduce的设计模式,包括初始化的最佳实践、Combiner的使用及其数学原理,并提出了一种新的思路——压缩pair,来改善MapReduce的性能。文中还对比了不同方法的线性扩展能力,并分析了机器数量对MapReduce作业的影响。

被折叠的 条评论
为什么被折叠?



