mapreduce编程模型之partitioner

Partitioner在MapReduce中负责决定Map输出的键值对如何进行分区,确保相同Key的记录被同一个Reducer处理。默认实现为HashPartitioner,通过hashCode()方法确定分区。示例显示了输出的分区结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Partitioner是一个mapreduce的顶级抽象类 用于决定map输出的kv键值对 如何按照job.setnumberruce(n)中设置的n个数进行分区 每个kv落在哪个分区之中 以及如何保证相同的key落在同一个分区中 只有相同的key落在同一个分区中 才能保证 这个相同的key可以被同一个reducer处理

上代码

 public static class MyPartitioner extends Partitioner<Text,Text>{

        @Override
        public int getPartition(Text key, Text value, int numPartitions) {
            if (key.toString().equals("hello"))
                return 0;
            else
                return 1;
        }
    }

这是定义了一个partitoner 这个partitioner定义了只有key为hello的时候是落在0分区 其余的都落在1分区 运行测试结果却是如此

hdfs@yksp005206:/home/jumpserver$ hadoop fs -cat /test/wc/output/part-r-00000
hello value[] hello,hello,hello,
hdfs@yksp005206:/home/jumpserver$ hadoop fs -cat /test/wc/output/part-r-00001
hellp value[] hellp,
hive value[] hive,
kylin value[] kylin,
spark value[] spark,
world value[] world,

partitioner的默认实现是hashpartitioner

(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
这个的意思是对key进行取hashcode 然后对n进行取余





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值