为什么分片大小需要与HDFS数据块大小一致

最新推荐文章于 2019-01-15 17:08:11 发布

最新推荐文章于 2019-01-15 17:08:11 发布 · 463 阅读

·

0

·

文章标签：

本文深入解析Hadoop如何将输入数据划分为等长小块（分片），并解释最佳分片大小应与HDFS块大小一致以确保数据本地化和高效执行。探讨了分片对性能的影响，特别强调了分片大小与HDFS块大小的匹配原则以实现最佳性能。

hadoop将mapReduce的输入数据划分为等长的小数据块，称为输入分片或者分片，hadoop为每个分片构建一个map任务。

hadoop在存储有输入数据（HDFS中的数据）的节点上运行map任务，可以获得高性能，这就是所谓的数据本地化。所以最佳分片的大小应该与HDFS上的块大小一样，因为如果分片跨越2个数据块，对于任何一个HDFS节点（基本不肯能同时存储这2个数据块），分片中的另外一块数据就需要通过网络传输到map任务节点，与使用本地数据运行map任务相比，效率更低！！！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。