
hadoop
文章平均质量分 81
鬼~离未罔两
这个作者很懒,什么都没留下…
展开
-
Hadoop基本原理
Getting StartedHadoop是一个用于海量数据统计分析的分布式计算框架,封装了分布式计算中比较困难的进程间通信、负载均衡,任务调度等模块,降低了学习门槛。在最简单的程序实现中,仅仅需要重写map和reduce方法,并实现任务提交逻辑。接下来,就让我们一起推开Hadoop的大门,走进大数据的神奇世界。Hadoop的组成Hadoop目前主要包括Hadoop1.x和hadoop2.x,两种版原创 2017-09-17 23:37:34 · 13620 阅读 · 0 评论 -
MapReduce的Shuffle过程
Shuffle是什么? MapReduce主要包括map和reduce过程。顾名思义,map是映射,即格式化输入字符串并过滤。reduce是减小,主要对日志进行一些聚合等数据统计操作。Shuffle处于map和reduce之间。 Shuffle本义洗牌、混洗,即将一组一定规则的数据转换为一组无规则的数据,越随机越好。而此处的Shuffle则像上述过程的逆过程,需要将数据按一定规则排序。原创 2017-10-31 20:55:56 · 328 阅读 · 0 评论