
Hadoop
端木胥
学生党一枚,正在学习大数据
展开
-
使用MultipleOutputs方法将mapreduce分组输出
使用MultipleOutputs方法将mapreduce分组输出MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用通过使用Map和Reduce函数,再定义输入输出就能得到我们想要的结果。不过一般Map Reduce的输出只包含一个可视化输出文件(如下图part-r-00000文件),那么我们如果需要将这一个输出文件分为多个...原创 2019-05-13 22:15:56 · 286 阅读 · 0 评论 -
Hadoop Streaming详解
刚来公司的时候就发现大家都在使用Hadoop Streaming 来执行任务,当时还在想名字里有Streaming,Hadoop也拿来做实时计算工具了吗?后来发现原来只是我学得太少,对编程工具的理解太片面了。那么接下来就来看看什么是Hadoop Streaming,为什么要使用Hadoop Streaming、Hadoop Streaming的原理以及怎么使用Hadoop Streaming。...原创 2019-09-22 02:12:59 · 1195 阅读 · 0 评论 -
Hadoop Streaming多路输出
上一章说到,Hadoop Streaming能使用任何编程语言编写MR程序,使MR计算框架不再拘泥于Java这一单独的语言,但是这也有一定的局限性,比如说Hadoop Streaming需要有该编程语言的标准输入输出,对多路输出不够友好。一般reduce输出的文件格式为:part-00000,part-00001…,文件个数为reduce的任务个数。但是有时候我们需要用到多路输出的需求,比如输出...原创 2019-09-23 16:51:14 · 733 阅读 · 0 评论