MapReduce的输入输出格式

本文详细介绍了MapReduce中的InputFormat和OutputFormat,包括TextInputFile、SequenceFileInputFormat、KeyValueFileInputFormat等常见格式,以及自定义InputFormat的实现原理。同时,文章阐述了FileInputFormat的默认切片机制和切片大小的配置参数,并探讨了常见的OutputFormat如TextOutputFormat和SequenceFileOutputFormat。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

InputFormat

TextInputFile

最普通的文本文档格式,MR中默认的 InputFormat,不需要特殊指定

每条记录是一行输入。键是LongWritable 类型,存储该行在整个文件中的字节偏移量。 值是这行的内容,不包括任何行终止符(换行符合回车符),它被打包成一个 Text 对象。

SequenceFileInputFormat

序列化文件格式,文件中两个字段,分别代表key和value。

KEYIN VALUEIN (根据文件字段的实际类型确定)

KeyValueFileInputFormat

是普通的文本文档,但是每行都有两个字段,分别代表key和value

Key—Text Value—Text

默认的分隔符是 \t 无需特别指定

// 改变分隔符
job.getConfiguration().set
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值