
Hadoop
文章平均质量分 91
一个专注的小白
这个作者很懒,什么都没留下…
展开
-
MR中的输入/输出控制
MR中的输入控制 InputFormat(输入格式化器):MapReduce开始阶段,InputFormat用来产生InputSplit,并基于RecordReader把它切分成record,形成Mapper的输入 MR内置的InputFormat: 1)TextInputFormat:作为默认的文件输入格式,用于读取纯文本文件,文件被分为一系列LF或CR结束的行,key是每一行的位置偏移量,是...原创 2018-11-16 11:05:49 · 1611 阅读 · 0 评论 -
通过 MR实现二次排序
二次排序,即输入中存在两列数据,优先按照第一列数据排序,第一列相同时按照第二列数据排序,且可能存在多条第一列和第二列都相同的数据,注意保留。 利用MR的排序机制,可以通过k2,k3实现排序,可以充分利用这个机制实现二次排序,难度在于要同时参考两列的数据,此时可以将一行中的两列值封装到bean中,在bean中设计comparTo方法,指定比较规则,实现二次排序 import java.io.Da...原创 2018-11-17 10:29:58 · 1522 阅读 · 0 评论