Hadoop--客户端读写hdfs数据

大数据知识搬运工

已于 2025-05-14 09:54:40 修改

阅读量1.2k

点赞数 15

分类专栏： Hadoop/hive 文章标签： hadoop hdfs 大数据

于 2024-05-08 08:23:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44931681/article/details/105309355

版权

详细见hadoop面试整理一

1.HDFS写文件

在这里插入图片描述

客户端将文件写入本地磁盘的文件中
当临时文件大小达到一个Block大小时，HDFS Client 通知 NameNode，申请写入文件
NameNode 在HDFS的文件系统中创建一个文件，并把该 Block ID 和要写入的 DataNode 的列表返回给客户端
客户端收到这些消息后，将临时文件写入 DataNodes
1.客户端将文件内容写入第一个 DataNode（一般以 4kb 单位进行传输）。
2.第一个 DataNode 接收后，将数据写入本地磁盘，同时也传输给第二个 DataNode。
3.以此类推到最后一个 DataNode，数据在 DataNode 之间是通过 pipeline 的方式进行复制的。
4.后面的 DataNode 接受完数据后，都会发送一个确认给前一个 DataNode，最终第一个 DataNode 返回确认给客户端。
5.当客户端接收到整个 Block 的确认后，会向 NameNode 发送一个最终的确认信息。
6.如果写入某个 DataNode 失败，数据会继续写入其他的 DataNode。然后 NameNode 会找另一个好的 DataNode 继续复制，以保证冗余性。
7.每个Block 都会有一个校验码，并存放到独立的文件中，以便读的时候验证其完整性。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。