TeraSort and Join

本文介绍Hadoop MapReduce中TeraSort的实现原理,包括采样、分割及排序过程,并详细阐述了两种MapReduce Join的方法,即冗余方法与二次排序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop MapReduce:
首先,是分布式,是并行,所以一定要想到怎么样并行,使效率最高!(比如说teralist 就是各自并行的排序,有一个并行的过程。)
TeraSort:
采样:分割,采每部分前面的,得到一个大概的分布。
找分割点。
各部分自己排序,但部分整体是相对任何其他部分有序。(reduce可以规定reduce输出也是有序的。)
Join:

方法一:
I:f1,f2,f3,f4
F:
f1
f2
f3
f4
冗余:(还没理解)
f1_(1~k):
f1_1;
f1_2;
f1_4;
方法二:二次排序
将I分割为几部分。一部分一部分或一起拿来:
I: f1 W,。。。
F:
f1 L
。。。

f1 L
f1 W
f2 L
f2 W

一对一对按顺序处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值