【MapReduce】总集

本文总结了MapReduce的学习过程,详细介绍了如何自定义输入、分区、排序、分组及组合等环节,以满足复杂业务需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习MapReduce的阶段性总结,开个坑,慢慢更新

MapReduce已经预定义(或者说写好)了整个数据分析的流程,所以只按照相应的要求把业务需求融入进去就好。但是程序员就是放荡不羁爱自由。实际业务中的需求也是千奇百怪,所以我们在按照MapReduce的流程走的同时,针对具体的各个环节是可以自定义的。

从Map阶段开始,可以采用不同的input的方式(TextInputFormat(默认),CombineTextInputFormat(针对小文件过多的情形),KeyValueTextInputFormat(K-V形式的源数据),NLineInputFormat(多行确定数据的))还可以自定义InputFormat(主要是自定义RecordReader,主要是重写nextKeyValue(),决定K和V)

进入Reduce阶段之前,还有shuffle阶段,可以自定义分区的方式(Partitioner),可以自定义排序(WritableComparable),还可以在自定义排序的基础上分组(GroupingComparator),同时还可以选择是否要提前合并一下分区的数据(Combiner)以加快Reduce的运行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值