大数据之-Hadoop3.x_MapReduce_FileInputFormat切片机制---大数据之hadoop3.x工作笔记0106

本文介绍了Hadoop3.x中MapReduce的FileInputFormat切片机制,强调切片是逻辑上的,不涉及物理操作。默认情况下,切片大小与块大小相等,且每个切片会启动一个maptask。讨论了根据文件大小调整切片大小对性能的影响,并给出了计算切片个数的公式。此外,还提到了获取切片信息的API。注意,只有当文件大小超过块大小的1.1倍时,才会产生多个切片。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 然后我们再来看一下这个FileInputFormat的切片机制,可以看到

实际上切片就是按照文件的长度,一个切片大小默认等于块大小,切片是逻辑切片,不是物理切片

仅仅是做了标记

然后切片时不考虑数据整体,二手一个文件一个文件的单独切片

 一般都是用默认的就可以了,当然切片大小,你也可以让他进行比如,1kb,就开启一个maptask

1kb就开启一个maptask,但这样的话有个问题就是,太消耗性能了.

一般一个maptask的开启,会消耗1g的内存,1个cpu,所以一般都是要做合适的切片大小才行

比如上面就说了个案例,切片案例

这里要注意,当文件大小,>块大小的1.1倍的时候,才会被切片,否则会弄到一个片里

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值