MapReduce自定义Partitioner

最新推荐文章于 2023-05-18 20:27:06 发布

原创最新推荐文章于 2023-05-18 20:27:06 发布 · 250 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop 专栏收录该内容

43 篇文章

订阅专栏

本文详细解析了MapReduce中Shuffle过程的默认分区规则，即HashPartitioner的作用，并介绍了如何通过自定义Partitioner来实现更灵活的数据分区策略，以适应特定的业务需求。

Shuffle过程是会按照Map中输出的key，把数据默认分到一个分区中，那么默认的是如何实现的？
在这里插入图片描述
HashPartitioner是Partitioner默认的分区规则，其中numReduceTasks就是指定的Reducer的个数，决定了Reducer作业输出文件的个数。

自定义Partitioner

package com.imooc.bigdata.hadoop.mr.access;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * MapReduce自定义分区规则
 */
public class AccessPartition extends Partitioner<Text, Access> {

    /**
     * @param phone         手机号
     * @param access
     * @param numPartitions
     * @return
     */
    @Override
    public int getPartition(Text phone, Access access, int numPartitions) {
        if (phone.toString().startsWith("13")) {
            return 0;
        } else if (phone.toString().startsWith("15")) {
            return 1;
        } else {
            return 2;
        }
    }
}

在main方法中配置：

        // 设置自定义分区规则
        job.setPartitionerClass(AccessPartition.class);
        // 设置reduce个数
        job.setNumReduceTasks(3);

这样就将结果输出到不同的文件中去了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

vincent_hahaha

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hadoop MapReduce Partitioner 使用教程

SmartSi

01-03

2070

A partitioner works like a condition in processing an input dataset. Partition阶段发生在Map阶段之后，Reduce阶段之前。partitioner的个数等于reducer的个数（The number of partitioners is equal to the number of reducers）。这就意味着一个p

【MapReduce】基础案例 ---- 自定义Partitioner分区 ( 按手机号分区 )

懂得一千零一种,赋予你失败的方法！

01-13

1740

文章目录自定义Partitioner分区▪ 自定义分区基本步骤▪ 案例需求分析代码实现PhoneBean封装类ProvincePartitioner分区类Mapper阶段Reducer阶段Driver阶段 自定义Partitioner分区 ▪ 自定义分区基本步骤返回顶部 ▪ 案例需求分析将统计结果按照手机归属地不同省份输出到不同文件中（分区）（1）输入数据（2）期望输出数据手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。返回顶部..

参与评论您还未登录，请先登录后发表或查看评论

MapReduce系列之自定义Partitioner

twj0823的博客

11-26

302

partitioner定义：分区器 partitioner的作用是将mapper（如果使用了combiner的话就是combiner）输出的key/value拆分为分片（shard），每个reducer对应一个分片。默认情况下，partitioner先计算key的散列值（通常为md5值）。然后通过reducer个数执行取模运算：key.hashCode%(reducer个数)。这种方式不仅能够随...

MapReduce中的partitioner

weixin_34240520的博客

08-20

225

1.日志源文件: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CM...

MapReduce之自定义分区器Partitioner

Sun's Blog

07-21

860

文章目录问题引出默认Partitioner分区自定义Partitioner步骤Partition分区案例实操分区总结问题引出要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区）默认Partitioner分区 public class HashPartitioner<K,V> extends Partitioner<K,V>{ public int getPartition(K key,V value, int n

MapReduce之自定义Partitioner

bitbitbyte的博客

04-19

316

概述Map方法之后, 数据首先进入到分区方法, 把数据标记好分区, 然后把数据发送到环形缓冲区; reduce的并行数量以及输出文件的个数, 由分区数决定.默认分区是根据key的hashCode对ReduceTasks个数取模得到.自定义步骤1.自定义类继承Partitioner, 重写getPartion方法2. 在Job驱动中, 设置自定义Partitioner3. 自定义Part...

MapReduce自定义Partitioner指南：根据需求定制数据分区策略的5大步骤

## MapReduce简介 MapReduce是一种编程模型，用于处理大规模数据集的并行运算。最初由Google提出，现在已经成为处理大数据的标准解决方案之一。 ## MapReduce的运行原理 MapReduce模型分为两个阶段：Map阶段和...

MapReduce自定义分区Partition

weixin_46429290的博客

07-22

370

Partition分区默认Partitioner 分区 public class HashPartitioner<K, V> extends Partitioner<K, V> { public int getPartition(K key, V value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } } 默认分区是根据key的hashC

Hadoop 自定义 Partitioner 源代码

03-12

在标题“Hadoop 自定义 Partitioner 源代码”中，我们可以理解为讨论的是如何创建和理解 Partitioner 的源代码，以便于开发者可以更好地控制 MapReduce job 中的数据分片过程。自定义 Partitioner 可能涉及到以下...

13.mapreduce编程案例--流量统计安归属地输出--代码实现--自定义Partitioner的实现.mp4

04-30

13.mapreduce编程案例--流量统计安归属地输出--代码实现--自定义Partitioner的实现.mp4

MapReduce之自定义partitioner

踏云追月

02-02

1290

partitioner定义： partitioner的作用是将mapper（如果使用了combiner的话就是combiner）输出的key/value拆分为分片（shard），每个reducer对应一个分片。默认情况下，partitioner先计算key的散列值（通常为md5值）。然后通过reducer个数执行取模运算：key.hashCode%(reducer个数)。这种方式不仅能够随机地将

MapReducer中自定义Partitioner

qq_39261894的博客

02-27

231

默认的分区器 public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key, V value, ...

MapReduce 自定义partitioner

热门推荐

tian_1_2_3的博客

11-12

1万+

需求：将以下数据进行分开处理，其中第六个字段表示开奖结果数值，现在以15为分界点，将15以上的结果保存到一个文件，15以下的结果保存到一个文件。

MapReduce【自定义分区Partitioner】

功不唐捐，玉汝于成

05-18

731

MapReduce自定义分区案例

Hadoop--MapReduce3--自定义Partitioner

大魔王

02-27

641

在MapReduce处理过程中，map阶段每个maptask读取负责的文件切片，输入key为行的起始偏移量，输入value为行的内容；输出key-value为自定义类型，然后每个map将各自产生的key-value分发到不同的reducetask，相同的key必将分发到同一个reducetask以实现相同key数据聚合，其基本原理如下：每个maptask在分发数据时其由Parti...

mapreduce Partitioner

夜微凉的博客

08-31

270

description 航空数据由头部标题和数据部分组成,数据部分每行为一条记录,每列标示的信息与表头相对应,记录包含了某一年每个月的飞机飞行数据.现需将该文件中的记录按照月份划分为12个文件. file content Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,...

MapReduce Java自定义Partition分区

大数据流浪法师的学习笔记与分享

11-15

441

map步骤的输出直接给了shuffle中的partition。这里自定义partition处理数据。主要是理解整个过程与代码。仔细看代码，体会自定义分区有啥用。准备数据：链接：https://pan.baidu.com/s/19FTD2POhykGjxV6holxnfA 提取码：bvon 下载partition.txt 里面数据大概长这样：我们要做的是，把中间这一行的大于15的放到一个分...

MapReduce 中的 Partitioner

Ran_记忆犹新的博客

05-19

346

package flow.partitioner; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop....

深入解析Hadoop自定义Partitioner源码实现

自定义Partitioner需要继承org.apache.hadoop.mapreduce.Partitioner类，并实现getPartition()方法。getPartition()方法的输入参数包括Key、Value、以及Reduce任务的总数。该方法返回一个整数，该整数代表Key应该被...