背景:
TeraSort普遍用于参数hadoop的性能,那么他的原理是什么?
原理:
1.利用默认的IdentityMapper和IdentityReducer进行系统的输入输出。
2.利用mapreduce.job.reduces进行partitions数的确定
3.每个partition读取mapreduce.terasort.partitions.sample/mapreduce.terasort.num.partitions个记录
4.对读取的总样本记录进行排序
5.样品按partition进行分割,形成output/_partition.lst存入缓存
6.在Partitioner中进行形成TrieNode
7.基于TrieNode进行partition映射,最终形成有效的排序结果
1555

被折叠的 条评论
为什么被折叠?



