Apache Hadoop MapReduce Reducer类小解

最新推荐文章于 2025-06-30 18:23:16 发布

原创最新推荐文章于 2025-06-30 18:23:16 发布 · 618 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Hadoop #MapRedcue #Reducer

Apache Hadoop 专栏收录该内容

16 篇文章

订阅专栏

本文深入探讨了MapReduce框架中的ReduceTask工作原理，包括Reducer类的setup、reduce和cleanup方法的作用及实现细节，揭示了reduce方法如何处理每组数据的聚合汇总。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.ReduceTask

同mapper阶段类似，reduce阶段处理一个个reducetask,只不过mapper阶段mapper的map处理的是每一个切片的按行读取的数据。而reducetask的reduce处理的是每一个分区中每组数据的聚合汇总。

2.Reducer类

同样执行一个reducetask会调用一次run方法，而run方法则会调用setup,reduce和cleanup方法。其中setup和cleanup方法在此同样没有方法体代码。

setup方法(每一个分区中进行扥组汇总前调用一次，分区维度的)

protected void setup(Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException {
}

cleanup方法(同样是分区维度的调用，每一个分区内数据汇总完毕后才会调用一次)

protected void cleanup(Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException {
}

reduce方法

protected void reduce(KEYIN key, Iterable<VALUEIN> values, Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException {
    Iterator var4 = values.iterator(); // 获取当前组中value的迭代器对象
    while(var4.hasNext()) {
        VALUEIN value = var4.next();
        context.write(key, value);
    }
}

由于reduce方法的调用频率是每组调用一次，所以reduce方法的key对应的是mapper阶段的key,而value则是每一个分区内该key的所有value值的一个迭代器。

而且，一般是Mapper的key类型和值的类型作为Reducer的输入key类型和输入value类型。而reduce的输出key和value的类型的话，通常是按照需求设计而定。

博客等级

码龄10年

96
原创

47
点赞

105
收藏

14
粉丝

关注

私信

分类专栏

展开全部收起

上一篇：: Apache Hadoop MapReduce Mapper类小解

下一篇：: Apache Hadoop Mapreduce作业执行前篇之任务执行前准备（上）

最新评论

Apache Hadoop Mapreduce作业执行前篇之任务执行前准备（上）
G港小霸王: 从老哥博客中学到了不少干货硬货，想请老哥喝杯咖啡
Hadoop Configuration类简要小解
G港小霸王: 强，老哥大数据几年了
MySQL 安装与目录介绍
猫君之上: [code=sql] 如果在通过客户端工具连接MySQL时遇到 [Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column ‘information_schema.PROFILING.SEQ’ which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by 1.首先修改当前数据库的sql_mode -- 查看SQL_MODE SELECT @@sql_mode; -- 修改SQL_MODE SET sql_mode=(SELECT REPLACE(@@sql_mode,'ONLY_FULL_GROUP_BY','')); 2.然后把剔除掉ONLY_FULL_GROUP_BY模式的结果配置到my.ini中【可通过执行命令SELECT @@sql_mode;查看，然后剔除ONLY_FULL_GROUP_BY】 [mysql] sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION [/code]
MySQL 安装与目录介绍
猫君之上: [code=sql] # windows解压版安装后使用 A temporary password is generated for root@localhost:********** 提示的临时密码登陆后，如果需要修改密码 ALTER USER USER() IDENTIFIED BY '新密码'; [/code]
MySQL 安装与目录介绍
猫君之上: mysql 8.0以上报2058 解决方式[注意-新密码两边的引号为英文的] mysql> ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '新密码'; mysql> flush privileges;

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。