【Mapred】输入数据的分片实质

本文深入探讨Hadoop中文件输入数据的分片原理及新旧分片方法的区别。介绍了如何根据文件总量和用户配置确定分片大小,并讨论了分片大小的实际限制及其对资源利用的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://blog.youkuaiyun.com/tracymkgld/article/details/17578593提到作业的提交的时候,输入数据需要分片,当时提到有新旧两种分片方式,那么这里就来看看什么是新方法,与旧方法有什么不同。

hadoop1.0.3依据参数  mapred.mapper.new-api的配置选择不同的切片方法。

同样在http://blog.youkuaiyun.com/tracymkgld/article/details/17578593已经简单讲了一下FileInputFormat这种输入数据类型的切分原理,实质就是根据切片大小,对数据位置即所在机器列表进行切分。然后把这些信息写到job.split文件里。

现在重新仔细研究一下,这个老切片方法切片大小是怎么确定的。


a、先根据文件总量(Byte数)和用户配置的map数,确定一个所谓的goal大小,就是目标大小,有时候用户是傻逼的,输入数据量和map数配置得并不合理,对吧,所以这个goal大小可大可小。如果太小了呢,不合理,为啥呢,因为一个map不管处理的数据大小,都得启动一个task,屁大点数据,你起1000个map显然是对资源的浪费,当然,切分也不好切,因为hdfs的块基本上有128M的或者256M的,64M的都很少,你切片如果10M,我日,256M的一个块,都得切20多片,这什么玩意,这就失去了切片的根本意义。基于这样一个原理,系统给出了最小分片大小的限制,这个东西也是用户可以选配的,mapred.min.split.size。

b、确定分片大小

Math.max(minSize, Math.min(goalSize, blockSize));
从这里可以看出,允许的分片大小可能得区间,如果配置的最小分片大小不大于一个数据块,那么分片大小要在(min,blockSize]区间内,最大取到一个块的大小。

如果你配置的最小分片大小更大,比如2个块那么大,那么所有的分片都是固定的,都按照你配置的大小来分。把真实的分片大小限制到不大于1个数据块的大小,为啥?你想想一个分片由多个块组成,一个分片肯定要交给一个map处理啊,这样后面排序的意义就没有了
    排序就是尽量让map避免从远端的机器拿数据,要本地化,现在一个分片就有多个block,那么一个分片不在一台机器上,map计算就必然要夸机器拿数据。

c、开始分,分的是啥,咋分?

        long bytesRemaining = length;//一个文件的总byte数,开始分的时候剩余就是总量嘛,没分嘛,擦
        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {//SPLIT_SLOP = 1.1,就是说分到不足1个切片大小的时候就停了。
          String[] splitHosts = getSplitHosts(blkLocations, 
              length-bytesRemaining, splitSize, clusterMap);

重点看一下getSplitHosts:



转载请注明出处:http://write.blog.youkuaiyun.com/postedit/17613045

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值