H(hadoop&sourceCode).FileInputFormat源码解析

蒸气awa

已于 2022-08-07 15:29:51 修改

阅读量156

点赞数 2

分类专栏：大数据—Hadoop 文章标签：开发语言 hadoop 大数据 hdfs

于 2022-08-01 21:57:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wq45255446/article/details/126109669

版权

大数据—Hadoop 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了如何通过Hadoop程序实现文件切片，从查找数据目录开始，详细描述了如何计算切片大小、生成切片并记录元数据，最后提交切片规划到YARN，以计算所需的MapTask数量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

(1) 程序先找到你数据存储的目录。

(2)开始遍历处理（规划切片）目录下的每一个文件。

(3)遍历第一个文件word.txt
        a.获取文件大小fs.sizeOf(word.txt)。
        b.计算切片大小
                computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
        c.默认情况下，切片大小=blocksize。
        d.开始切，形成第1个切片：ss.txt-0:128M 第2个切片ss.txt-128:256M 第3个切片ss.txt—256M:300M（每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片）。
        e.将切片信息写到一个切片规划文件中。
        f.整个切片的核心过程在getsplito方法中完成。
        g.Iputsplit只记录了切片的元数据信息，比如起始位置、长度以及所在的节点列表等。
(4)提交切片规划文件到YARN上，YARN上的MrAppMaster就可以根据切片规划文件计算共启Map Task个数。

参考尚硅谷Hadoop视频！原视频连接：尚硅谷【官网】谷粉与老学员力挺的Java培训|大数据培训|前端培训|UI设计培训

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。