Hadoop学习日记（十二）——MapReduce自定义分组的实现

最新推荐文章于 2024-09-29 07:32:37 发布

原创最新推荐文章于 2024-09-29 07:32:37 发布 · 338 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了在Hadoop中使用MapReduce自定义分组机制的方法，包括自定义Partitioner类实现特定分组逻辑，以及如何设置reducertask的任务并发数与分组数量相匹配，避免错误。

Hadoop学习日记（十二）

2019.07.03

主题：MapReduce自定义分组的实现

学习过程主要参考段海涛大数据p34

1.自定义分组机制

MapReduce进行分组是根据一个继承Partitioner类的具体实现类来定义的，一般是默认有一个HashPartitioner类。如果要自定义自己的分组机制，自然就需要自定义一个自己的继承Partitioner类的具体实现类（例如MyPartitioner类），在MyPartitioner类里定义自己想要实现的分组机制，最后在Runner类里指定分组机制为自定义分组机制。

job.setPartitioner(MyPartitioner.class);

2.自定义reducer task的任务并发数

job.setNumReduceTasks(num);

reduce的任务并发数应该和分组的数量保持一致。

如果任务并发数大于分组的数量，则多的那几个任务拿不到数据，输出为空，不会报错。

如果任务并发数小于分组的数量，会报错，错误提示为Illegal partition for xxxx。

需要注意的是如果设置为1是可以的，因为如果本身不设置任务并发数，只设置分组机制，默认是1个reduce task。

总结来说，要么是1个reduce task，要么有大于等于分组数的reduce task。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

WorkAsBryant

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据Hadoop（二十四）：MapReduce高阶训练

Lansonli（蓝深李）的博客

06-03

2441

MapReduce高阶训练上网流量统计数据格式如下: 需求：统计求和统计每个手机号的上行数据包数总和，下行数据包数总和，上行总流量之和，下行总流量之和分析：以手机号码作为key值，上行数据包，下行数据包，上行总流量，下行总流量四个字段作为value值，然后以这个key和value作为map阶段的输出，reduce阶段的输入。思路分析 ...

深入探讨大数据领域Hadoop的数据安全审计

最新发布

大数据洞察的博客

08-20

1185

想象一下，你管理着一座世界上最大的图书馆——这里有数十亿本书（数据），每天有数千名读者（用户）进出，借阅、复印、甚至修改书籍内容。如何确保每一本书都被正确使用？如何追踪谁在什么时间接触了哪些敏感书籍？如何证明你的图书馆符合"图书管理规范"？这正是Hadoop数据安全审计要解决的问题。目的：Hadoop数据安全审计旨在通过系统化的监控、记录和分析手段，确保Hadoop集群中的数据访问和操作行为可追溯、合规且安全，最终保护企业核心数据资产免受未授权访问和滥用。范围。

1 条评论您还未登录，请先登录后发表或查看评论

hadoop mapreduce 自定义分组实现

qq_41854797的博客

05-20

647

hadoop mapreduce 自定义分组实现任务要求：对流量日志进行流量统计，将不同省份的用户统计结果输出到不同的文件；需要自定义改造两个机制： 1、改造分区的逻辑，自定义一个Partitioner类 2、自定义reducer task的并发任务数；具体代码java： mapreduce 以及主类代码： package com.cjp.areaPartitioner; impor...

MapReduce2中自定义排序分组

08-12

NULL 博文链接：https://username2.iteye.com/blog/2274802

mapreduce的自定义分组

qq_27347421的博客

01-29

833

默认分组默认情况下的分组和排序的规则是一样的，他们调用的都是compareTo()方法。排序：compareTo()返回值调整数据顺序排序规则相同的会排在一起分组：compareTo()调用的是返回值是否为0 返回值为0的为0的全部为一组返回值不为0的为新的组底层实现: 调用一个类 WritableComparetor 是一个普通类 /* 分组按照map输出的key（序列化...

MapReduce之自定义分组实现

小方的博客

07-07

1184

MapReduce之自定义分组实现 0.概念说明：分组是一种特殊的比较器，对key做比较，并进行归并，类似于合并同类项，也类似于SQL中的分组查询要求：通过自定义分组比较器实现将emp.csv中的数据按照部门号分成三个分组，并显示出每组的人员名称，最终显示的结果格式如下所示： <10,CLARK1；KING1；MILLER1> <20,CLARK2；KING2；MILLER2> <30,CLARK3；KING3；MILLER3> 思路： 1、需要自定义分组比较器

Hadoop集群搭建日记

chenhanl的博客

09-25

576

一.Hadoop的搭建与配置 1.环境配置要求 1.Centos7 2.jdk1.8.0_261-i586 3.hadoop 3.1.4 2.设置机器名称，在任意一台机器Centos7上修改域名映射 1.使用hostname命令查看本机名称。 2. vi /etc/hosts 域名映射使用scp命令发送其他克隆机上 scp /etc/hosts root@

小白学数据仓库日记day4——sqoop

qq_42515611的博客

07-22

686

Sqoop Sqoop是什么? SQL+HADOOP=SQOOP 完成MySQL到HADOOP之间的数据传输 Sqoop现状已经停止维护分为SQOOP 1 和SQOOP 2 建议使用sqoop 1.4.7 停止维护原因分析 1.足够的成熟 2.基于MapReduce太老了,替换方案datax canel 兼容性较好的版本组合 Hadoop 2.7+ Hive 1.2.1 +HBase 1.x +sqoop 1.4.7 SQOOP主要命令 import 导入 export 导出 job 减少重复代码 .

大数据新视界 --大数据大厂之基于 MapReduce 的大数据并行计算实践

【青云交】华为云云享专家 | 阿里云开发者社区专家博主技术圈个人影响力前 17 | 博客之星 TOP23 优快云首位四榜（原力榜 / 作者周榜 / 领军人物 / 综合热榜）榜首，破平台纪录！苏州地区全榜霸榜，感恩全网十多万粉丝同行！

09-29

3453

本文深入探讨 MapReduce 的核心概念与原理，对比其他并行计算框架，阐述多种应用案例，分析性能优化与挑战，介绍实际部署与运维，探讨与新兴技术的融合，旨在为大数据处理提供全面且深入的实践参考。

大数据平台架构--学习日记（一）

lp279579561的专栏

03-09

861

何谓五横，基本还是根据数据的流向自底向上划分五层，跟传统的数据仓库其实很类似，数据类的系统，概念上还是相通的，分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。同时，大数据平台架构跟传统数据仓库有一个不同，就是同一层次，为了满足不同的场景，会采用更多的技术组件，体现百花齐放的特点，这是一个难点。具体见下图示例，这张图是比较经典的，也是妥协的结果，跟当前网上很多的大数据架构图都可以作...

MapReduce之自定义分组

在记录自己编程工作与编程生活的同时，给那些困于无法入门编程世界的朋友提供一点帮助，在有限的生命中给有需要的人尽一点绵薄之力。

05-25

788

MapReduce之自定义分组一、需求说明二、测试数据三、编程思路四、实现步骤五、打包上传到集群中运行一、需求说明说明：分组是一种特殊的比较器，对key做比较，并进行归并，类似于合并同类项，也类似于SQL中的分组查询要求：通过自定义分组比较器实现将emp.csv中的数据按照部门号分成三个分组，并显示出每组的人员名称，最终显示的结果格式如下所示： <10,CLARK1；KING1；MILLER1> <20,CLARK2；KING2；MILLER2> <30,CLA

Hadoop的MapReduce如何自定义分组

别人笑我太疯癫，我笑他人看不穿。

12-31

315

虽然在MR运行的时候回以key为核心进行分组操作，但是有时候我们需要自定义分组来实现一些特别的功能，下面我给大家准备了一个以d

MapReduce的自定义分组

weixin_30929011的博客

02-07

172

1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.text.SimpleDateFormat; 5 import java.util.Date; 6 7 import org.apache.hadoop.conf.Configur...

MapReduce自定义分组Group

lavimer

01-18

6115

一：背景在上一篇文章中我们可以对两列数据进行排序，即完成了当第一列相同时第二列数据升序排列的功能，现在我们需要进一步完善一个功能，那就是当第一列相同时求出第二列的最小值或最大值，Hadoop提供了自定义分组的功能，可以满足我们的需求。二：技术实现我们先来看看需求 #当第一列不相等时，第一列按升序排列，当第一列相等时，求出对应第二列的最小值 3 3 3 2 3 1 2 2 2

0090-mapreduce自定义分组

登峰小蚁

03-14

2650

文章目录1. 需求2. 实现步骤2.1 实体类2.2 Mapper程序2.3 自定义Partitioner2.4 Reducer程序2.5 执行job2.6 总结 1. 需求 mapper将结果发送到Reducer会进行数据分组，默认是分在同一组，有时候会根据不通的业务需求进行分组。注：默认的分组逻辑，(key.hashCode() & Integer.MAX_VALUE)表示用key的...

mapreduce的分组

数据丁的博客

10-23

864

分组：如果是按照hadoop自带类型进行分组时，按照key相同进行分组如果按照自定义类型key时，按照compareTo中的判断规则进行分组需求：求每个班成绩最好的学生信息分组：班级排序：成绩 key包含班级+成绩，也可以+名字，自定义类型，这样map输出的value可以是null 只需要按照成绩排序就可以了分组求topN reduce端只需要取出第一个就可以了创建自定义类Stud...

mapreduce自定义分组

sjtu_chenchen的专栏

10-30

827

//-------------------FlowSumArea.java------------- package pack4;import java.io.IOException;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Lo

hadoop-2.7.1 MapReduce自定义分组的实现

jiang0426的博客

05-13

746

对数据中电话进行分组，并统计上传、下载、总流量 1、待处理的数据为： 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.19

mapreduce的自定义分组器

lds_include

06-18

904

Mapreduce自定义分组器前提：有的时候我们想将符合条件的key值放在同一个组内；但是key的值是不同的将不会放进同一个组中。举例：想将一个学生的进校以后不同时间段的数学成绩按进校考试的时间进行一个成绩排序。如下效果 //排序前的效果 stu1 time1 core1 stu1 time2 core stu1 time3 core3 stu2 time1 core1 stu2 t...