
Hadoop
在云端123
这个作者很懒,什么都没留下…
展开
-
Hadoop认识
Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得转载 2017-07-27 23:56:02 · 1797 阅读 · 0 评论 -
MapReduce计算模型
模型架构1、执行MapReduce任务的角色有两个,一个是JobTracker,用于调度工作,另一个是TaskTracker,用于执行工作的2 2、一个Hadoop集群中只有一个JobTracker 3、每个MapReduce任务分为map阶段和reduce阶段执行流程 1、首先将文件读取,然后由map程序处理,map程序将输入读入切出其中的word,并标记它的数目为1,形成< word,1>原创 2017-07-28 21:59:01 · 1723 阅读 · 0 评论 -
Hadoop部署及运行
开启hadoop1、运行cmd窗口,执行“hdfs namenode -format” 2、子hadoop的sbin目录,执行“start-all.cmd” 此时hadoop服务器已开启操作HDFS我们来创建输入目录(创建目录要确保服务器已开启状态才行) hadoop fs -mkdir hdfs://localhost:9000/user/ hadoop fs -mkdir hdfs原创 2017-07-29 08:31:52 · 1384 阅读 · 0 评论 -
MapReduce中context的作用
首先Context是Mapper的内部类,为了在map或reduce任务中跟踪task的状态,MapContext记录map执行的上下文,同时context也是map和reduce执行的各个函数的桥梁,与session对象相似原创 2017-07-29 09:45:59 · 3663 阅读 · 0 评论 -
[Hadoop源码解读]之MapReduce篇之Job类
下面,我们只涉及MapReduce 1,而不涉及YARN。 当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做。建立一个Job对象,设置它的JobName,然后配置输入输出路径,设置我们的Mapper类和Reducer类,设置InputFormat和正确的输出类型等等。然后我们会转载 2017-07-29 10:24:44 · 2340 阅读 · 0 评论 -
Hadoop深入学习:Combiner
每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。 1)、Combiner最基本是实现本地key的聚合,对map输出的key排序、value进行迭代。如下所示: 引用 map:(key1,value1) ——> li转载 2017-07-29 10:38:35 · 1153 阅读 · 0 评论 -
MapReduce应用
计算出文件中各个单词的频数,要求输出结果按照单词的字母顺序进行排序 每个单词和频数占一行,单词和频数之间有间隔 设计思路:将文件内容怯分成单词,然后将所有相同的单词聚一块,最后计算单词出现的次数并输出,相同单词的频数计算可以并行化处理,相同单词交给一台机器来计算频数package hadoop;/* * 计算出文件中各个单词的频数,要求输出结果按照单词的字母顺序进行排序 * 每个单词和频数占一行原创 2017-07-29 09:19:14 · 1282 阅读 · 0 评论