
Hadoop
lantianjialiang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Distributed Cache in Hadoop
@Distributed Cache in Hadoop Distributed Cache in Hadoop Distributed Cache是Hadoop MapReduce提供的一个工具。它可以给我们的Worker(Map/Reduce Jobs)提供cache数据。这些数据可以是文本,压缩文件,jar文件等。一旦我们班cache文件配置好都,Hadoop会确保我们的Workder在各个...转载 2018-09-21 09:18:33 · 433 阅读 · 0 评论 -
MultipleOutputs in Hadoop
MultipleOutputs,说白了就是你想在Reduce中,将结果写到不同的文件中去的时候,来用的。 看看Hadoop的官网的例子和解释: 我们的Driver代码中使用到了MultipleOutputs,并且配置了两个输出前缀,分别是seq额text。 Job job = new Job(); FileInputFormat.setInputPath(job, inDir); File...转载 2018-09-21 09:36:43 · 197 阅读 · 0 评论 -
RecordReader and InputFormat vs OutputFormat and RecordWriter
RecordReader and InputFormat vs OutputFormat and RecordWriter InputFormat从HDFS中读取文件,InputFormat abstract类中有一个方法是getSplits,会返回这么文件要分成几个InputSplit。一般来说一个InputSplit会对应的一个Map task上去。 每个Map task会通过Recor...转载 2018-09-21 09:59:14 · 203 阅读 · 0 评论 -
partitioner in Hadoop
partitioner用来控制map task的中间输出记录的所处的分组的。 partitioner的接口如下: abstract int getPartition(KEY key, VALUE value, int numPartitions) 通常我们使用Record的key来计算分组的值,计算方法一般是hash。 分组的总数和reduce task的个数一样,如果reduce task的...转载 2018-09-22 14:00:32 · 199 阅读 · 0 评论