谈谈shuffle流程 细节就不说了

本文通过一个具体案例,详细解析了如何处理分布在1000台机器上的100亿条数据,以计算每种关键词的词频。文章分为Map和Reduce两个阶段,介绍了数据处理的具体步骤,包括读取数据、合并数据、排序、分区、落盘等关键环节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文抛开 hadoop shuffle 原理 与 spark shuffle 单纯从逻辑思考。便于对hadoop shuffle 以及 spark shuffle的原理理解。

数据:100亿数据存在1000台分布式系统中,每个机器存储1千万数据,这1千万数据存放在1000个block中,每个block存1万数据
想象一下目标:100亿数据,得到每个关键词的词频
如果是你,你的处理流程是什么呢:

1,每个机器 并行读取 每个block-1数据,按照关键词进行map:
aa
1
bb
1
cc
1
dd
1
aa
1


2,看到有两个aa,合并成一个 aa:2

3,发现内存还有剩余:读取block-2

4,发现与 block-1 的有重复,合并:aa:5

5,一直读取block-n,发现内存不足了,写磁盘:
    a, 以先进先出原则,边落盘到本地, 边删除堆内存中的kv数据, 边继续增加新的kv。
    b, 写磁盘不能按照原来的block数量 需要重新分区:partition操作
    c,写磁盘前需要先对partition内数据做个排序,保证每个partition都是有序的
    d,写磁盘前对几个block-1 ~ block-n 的数据足了合并, aa:5 :combine

7,每个机器内,每个map 都会创建n个partition文件,然后呢

8,每个机器内的所有partitions,做合并:merge ,例如 aa:1,2,3,4,5,100


好了到此 map的事儿就干完了

——————————————————————————————————————————————————————————
reduce过程

9,拉取这1000个机器上的1000个文件

10,两两合并他们,形成统一结果:combine+merge

11,输出:aa:500








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值