partitioner in Hadoop

最新推荐文章于 2024-08-18 08:42:07 发布

转载最新推荐文章于 2024-08-18 08:42:07 发布 · 199 阅读

Hadoop 专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了Hadoop中MapReduce分区器(partitioner)的工作原理及其应用。分区器用于控制maptask中间输出记录的分组，确保相同分组的记录被发送到同一reducetask。文章通过实例说明如何自定义分区器以满足特定需求，如按key范围分配任务或实现全排序，强调了合理设计分区器的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

partitioner用来控制map task的中间输出记录的所处的分组的。
partitioner的接口如下：

abstract int 	getPartition(KEY key, VALUE value, int numPartitions)

通常我们使用Record的key来计算分组的值，计算方法一般是hash。
分组的总数和reduce task的个数一样，如果reduce task的个数是1或者0，partitioner不会起作用。
partitioner发生在map task结束之后，reduce task开始之前。
Hadoop会保证分组相同的Record（key value pair）会被发送到同一个reduce task去执行。
这一条是重点：我们可以使用这一特点来完成一些我们自己的特殊需求。
例如：假设我们的key是int，希望key 范围在0~100的Record，分到一个reduce task，其他的分到另外一个reduce task上去。我们就可以实现下面的partitioner：

int getPartition(KEY key, VALUE value, int numPartitions) {
  if(key >= 0 && key <= 100) {
      return 0;
  }
  return 1;
}

需要注意的是，如果我们写的partitioner不好的话，会导致某个reduce task收到很多的record来处理，从而会导致整个job的执行时间加长。

再例如：我们想对很多的数据进行排序，这里就可以使用到InputSampler + TotalOrderPartitioner，具体的可参见下面的链接：
http://blog.ditullio.fr/2016/01/04/hadoop-basics-total-order-sorting-mapreduce/