
MapReduce
patrick_wang_bigdata
这个作者很懒,什么都没留下…
展开
-
Hadoop Streaming思考总结
Hadoop Streaming Hadoop streaming is a utility that comes with the Hadoop distribution. The utility allows you to create and run Map/Reduce jobs with any executable or script as the mapper and/or the...原创 2020-02-18 23:52:29 · 491 阅读 · 0 评论 -
MapReduce Tutorial 思考总结
Prerequisites(前置条件) Hadoop集群必须安装好,配置好,可正常运行。 Overview(概览) MR(MapReduce简称,下同)任务会将input data-set切片(split)成独立的chunks然后交由map task并行处理,map task的输出经过sort(框架完成)后作为reduce task的输入。MR任务的输入和输出都存放在文件系统如HDFS。 一般来说...原创 2020-02-16 23:20:26 · 788 阅读 · 0 评论 -
MapReduce全局程序计数器Counters
文章目录Counters定义以源码的TaskCounter计数器为例自定义Counter例子 Counters定义 Counters represent global counters, defined either by the MapReduce framework or applications. Each Counter can be of any Enum type. Counters...原创 2020-02-15 14:26:39 · 616 阅读 · 0 评论 -
关于MapReduce的Secondary Sort机制
预备知识–Java比较器 java.util.Comparator和java.lang.Comparable都是接口,都是用来做对象比较用的。 内部比较器Comparable java.lang.Comparable被称为内部比较器,接口说明里是这样描述的。 This interface imposes a total ordering on the objects of each clas...原创 2020-02-14 14:51:09 · 516 阅读 · 0 评论