Hadoop 之 文件切分算法

本文详细解析了Hadoop中文件切分算法的工作原理,包括旧方法和新方法的计算公式,以及如何确保InputSplit大小与block大小一致以提高MapTask效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文件切分算法主要用于确定 InputSplit 的个数,以及每个 InputSplit 对应的数据段。FileInputFormat 以文件为单位切分生成 InputSplit。

对于新旧 MapReduce 有各自确定 InputSplit 大小的计算公式。


在旧方法中,由以下三个属性值确定其对应的 InputSplit 的个数:
1. goalSize:根据用户期望的 InputSplit 数目计算出来的,即 totalSize/numSplit。 其中,totalSize 为文件的总大小;numSplit 为用户设定的 Map Task 个数,默认为1;
2. minSize:InputSplit 的最小值,由配置参数 mapred.min.split.size 确定,默认为1;
3. blockSize:文件在 HDFS 中存储的 block 大小,默认为64MB。

这三个参数一起决定 InputSplit 的最终大小,方法如下:

splitSize = max{minSize, min{goalSize, blockSize}}

在新方法中,InputSplit 的划分不再考虑用户指定的 Map Task 个数,用 mapred.max.split.size 替代,记为 maxSize。计算公式如下:

splitSize = max{minSize, min{maxSize, blockSize}}

特别注意
默认情况下,split 大小和 block 大小是相同的。

举例:文件 S 被分成 3 个 block 块,分别位于 A,B,C 三个节点,如果 InputSplit 的大小大于 block 的大小,则对于一个输入分片,他要去其他节点取数据后再组成 InputSplit。这样会产生网络传输,降低Map Task的本地性,降低效率。

所以,最好使 InputSplit 大小与 block 大小相同


参考《Hadoop 技术内幕》,董西成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值