InputFormat
TextInputFile
最普通的文本文档格式,MR中默认的 InputFormat,不需要特殊指定
每条记录是一行输入。键是LongWritable 类型,存储该行在整个文件中的字节偏移量。 值是这行的内容,不包括任何行终止符(换行符合回车符),它被打包成一个 Text 对象。
SequenceFileInputFormat
序列化文件格式,文件中两个字段,分别代表key和value。
KEYIN VALUEIN (根据文件字段的实际类型确定)
KeyValueFileInputFormat
是普通的文本文档,但是每行都有两个字段,分别代表key和value
Key—Text Value—Text
默认的分隔符是 \t 无需特别指定
// 改变分隔符
job.getConfiguration().set