
hadoop源码
文章平均质量分 91
iteye_20817
这个作者很懒,什么都没留下…
展开
-
Hadoop源码学习系列—— HAR归档Job设计要点
hadoop版本:CDH3u2 hadoop 中生成har文件是通过mapred job实现的,这个主要的class是“HadoopArchives.java”,它是tools包里面的一个类。这个类有800多行code,包含map reduce 自定义的inputformat和其它辅助方法,细读起来还需要花点时间。 一个har job命令行举例: # 归档"/fc/src...2012-01-28 19:12:29 · 588 阅读 · 0 评论 -
Hadoop二次排序关键点和出现时机(也叫辅助排序、Secondary Sort)
前言 Hadoop二次排序简单说就是先根据字段A分组排序,然后在对组内根据字段B排序。Hadoop二次排序在面试的时候出现频率也是比较高的。今天花了点时间通过源码深入学习了一下。(后面内容以Hadoop自带实例——SecondarySort讲解,见本文附录) Hadoop默认是根据reduce key排序,通过Hadoop二次排序可以实现根据value值(需要将其放入复合k...原创 2013-12-16 15:41:18 · 257 阅读 · 0 评论 -
Hadoop map task中Partitioner执行时机
MapTask.runNewMapper() -> ... if (job.getNumReduceTasks() == 0) { // 无reduce,直接写HDFS // 这个writer输出时不执行Partitioner.getPartition()方法 output = new NewDirectOutputCollec...原创 2013-12-18 09:36:39 · 191 阅读 · 0 评论