MapReduce计算任务的步骤

最新推荐文章于 2025-01-23 23:09:37 发布

未烬丶

最新推荐文章于 2025-01-23 23:09:37 发布

阅读量272

点赞数 4

CC 4.0 BY-SA版权

文章标签： MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/youyigebug/article/details/103074198

本文详细阐述了MapReduce计算任务的十个关键步骤，从输入格式设置到数据读取，再到Map、Reduce等过程的深入解析，最后到输出格式的确定，全面介绍了MapReduce的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce计算任务的步骤

第1步：InputFormat

InputFormat 到hdfs上读取数据

将数据传给Split

第2步：Split

//设置读取数据的路径

TextInputFormat.addInputPath(job,new Path("C:\\bbb.txt"));

//3、设置Map

job.setMapperClass(WordCountMap.class);

//设置map输出的类型

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(LongWritable.class);

//4、设置reduce代码

job.setReducerClass(WordCountReduce.class);

//设置reduce输出的类型

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(LongWritable.class);

//5、设置读输出数据的class

job.setOutputFormatClass(TextOutputFormat.class);

//设置输出数据的路径

TextOutputFormat.setOutputPath(job,new Path("C:\\ccc.txt"));

//6、等待代码执行（返回状态码）

return job.waitForCompletion(true)?0:1;Split将数据进行逻辑切分，

将数据传给RR

第3步：RR

RR:将传入的数据转换成一行一行的数据，输出行首字母偏移量和偏移量对应的数据

将数据传给MAP

第4步：MAP

MAP:根据业务需求实现自定义代码

将数据传给Shufflfflffle的partition

第5步：partition

partition:按照一定的分区规则，将key value的list进行分区。

将数据传给Shufflfflffle的Sort

第6步：Sort

Sort:对分区内的数据进行排序

将数据传给Shufflfflffle的combiner

第7步：combiner

combiner:对数据进行局部聚合。

将数据传给Shufflfflffle的Group

第8步：Group

Group:将相同key的key提取出来作为唯一的key,

将相同key对应的value获取出来作为value的list

将数据传给Reduce

第9步：Reduce

Reduce：根据业务需求进行最终的合并汇总。

将数据传给outputFormat

第10步：outputFormat

outputFormat:将数据写入HDFS打包代码到集群运行

在代码中添加

job.setJarByClass(WordCountDriver.class);

打包提交

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。