HDFS读数据流程

最新推荐文章于 2025-02-25 13:54:23 发布

Sula_G

最新推荐文章于 2025-02-25 13:54:23 发布

阅读量160

点赞数

分类专栏：大数据导论文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Sula_G/article/details/121031311

版权

大数据导论专栏收录该内容

6 篇文章

订阅专栏

在讨论HDFS读写流程之前我们首先必须得知道什么是block、packet、chunk。

1.block

文件上传前需要分块，这个块就是block，一般为128MB，当然你可以去改，不顾不推荐。因为块太小：寻址时间占比过高。块太大：Map任务数太少，作业执行速度变慢。它是最大的一个单位。

2.packet
packet是第二大的单位，它是client端向DataNode，或DataNode的PipLine之间传数据的基本单位，默认64KB。

3.chunk
chunk是最小的单位，它是client向DataNode，或DataNode的PipLine之间进行数据校验的基本单位，默认512Byte，因为用作校验，故每个chunk需要带有4Byte的校验位。所以实际每个chunk写入packet的大小为516Byte。由此可见真实数据与校验值数据的比值约为128 :1。

读数据相比写数据会简单许多:

1、与NameNode通信查询元数据，找到文件块所在的DataNode服务器

2、挑选一台DataNode（网络拓扑上的就近原则，如果都一样，则随机挑选一台DataNode）服务器，请求建立socket流

3、DataNode开始发送数据(从磁盘里面读取数据放入流，以packet（一个packet为64kb）为单位来做校验)

4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。