mapreduce JobConf 常用可定制参数

最新推荐文章于 2020-02-21 01:07:15 发布

转载最新推荐文章于 2020-02-21 01:07:15 发布 · 1.4k 阅读

·

0

·

mapreduce 专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了Hadoop MapReduce框架中的关键配置项，包括输入输出格式设置、键值类型定义、Mapper与Reducer的选择及分区策略等。这些配置决定了数据处理的流程与效率。

参数	作用	缺省值	其它实现
inputFormat	将输入的数据集切割成小数据集inputSplits, 每一个InputSplit将由一个Mapper负责处理。此外inputFormat中还提供一个RecordReader的实现, 将一个InputSplit解析成《key,value》对提供给 map 函数。	TextInputFormat(针对文本文件，按行将文本文件切割成InputSplits, 并用LineRecordReader将InputSplit解析成《key,value》对，key是行在文件中的位置，value是文件中的一行)	SequenceFileInputFormat
OutputFormat	提供一个 RecordWriter 的实现，负责输出最终结果	TextOutputFormat(用 LineRecordWriter 将最终结果写成纯文件文件,每个《key,value》对一行，key 和 value 之间用 tab 分隔)	SequenceFileOutputFormat
OutputKeyClass	输出的最终结果中 key 的类型	LongWritable
OutputValueClass	输出的最终结果中 value 的类型	Text
MapperClass	Mapper 类，实现 map 函数，完成输入的《key,value》到中间结果的映射	IdentityMapper(将输入的《key,value》原封不动的输出为中间结果)	LongSumReducer, LogRegexMapper, InverseMapper
CombinerClass	实现 combine 函数，将中间结果中的重复 key 做合并	null(不对中间结果中的重复 key 做合并)
ReducerClass	Reducer 类，实现 reduce 函数，对中间结果做合并，形成最终结果	IdentityReducer(将中间结果直接输出为最终结果)	AccumulatingReducer, LongSumReducer
InputPath	设定 job 的输入目录, job 运行时会处理输入目录下的所有文件	null
OutputPath	设定 job 的输出目录，job 的最终结果会写入输出目录下	null
MapOutputKeyClass	设定 map 函数输出的中间结果中 key 的类型	如果用户没有设定的话，使用OutputKeyClass
MapOutputValueClass	设定 map 函数输出的中间结果中	value 的类型如果用户没有设定的话，使用 OutputValuesClass
OutputKeyComparator	对结果中的 key 进行排序时的使用的比较器	WritableComparable
PartitionerClass	对中间结果的 key 排序后，用此 Partition 函数将其划分为R份,每份由一个 Reducer 负责处理。	HashPartitioner(使用 Hash 函数做 partition)	KeyFieldBasedPartitioner PipesPartitioner

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。