hadoop运维常见问题

最新推荐文章于 2022-08-21 14:04:19 发布

无敌的小妖怪

最新推荐文章于 2022-08-21 14:04:19 发布

阅读量509

点赞数

本文链接：https://blog.youkuaiyun.com/yuangejiageiwohaoma/article/details/118548047

版权

本文详细介绍了Hadoop的分布式文件系统HDFS的架构，包括NameNode、DataNode和Secondary NameNode的角色及作用。讨论了HDFS的读写流程，并深入解析了NameNode HA和Federation架构。此外，还分享了Hadoop集群的常见进程、常用配置文件、端口信息以及shell命令。最后，探讨了HDFS的集群优化技巧，包括硬件、文件系统、内存调优等方面，提出了解决小文件问题的HAR存档方法，以及一系列关键参数的调整建议，如dfs.replication、dfs.namenode.handler.count等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS的架构原理和各核心组件的作用及关系

HDFS(Hadoop Distribute FIleSystem) 用来处理海量数据的存储，是hadoop的分布式文件系统。
核心组件：
NameNode DataNoad SecondaNmenode

NameNode：整个集群的元数据节点，主要负责存储整个集群的元数据信息（位置、大小、owner、操作时间等）和相应客户端的请求，管理数据块的映射，配置副本策略等

DataNode：实际存储数据块的地方，进行数据的读写

SecondNamenode：
1、NameNode初始化时会产生一个edits文件和一个fsimage文件。
2、随着edits文件不断增大，当达到设定的阀值时，Secondary NameNode把edits文件和fsImage文件复制到本地，同时NameNode会产生一个新的edits文件替换掉旧的edits文件，这样以保证数据不会出现冗余。
3、Secondary NameNode拿到这两个文件后，会在内存中进行合并成一个fsImage.ckpt的文件（这个过程称为checkpoint），合并完成后，再将fsImage.ckpt文件复制到NameNode下。
4、NameNode文件拿到fsImage.ckpt文件后，会将旧的fsimage文件替换掉，并且改名成fsimage文件。

通过以上几步则完成了edits和fsimage文件的合并，依此不断循环，从而到达保证元数据的正确性。

读写流程
读流程：
1、HDFS客户端提交读操作到NameNode上，NameNode收到客户端提交的请求后，会先判断此客户端在此目录下是否有读权限，如果有，则给客户端返回存放数据块的节点信息，即告诉客户端可以到相关的DataNode节点下去读取数据块；
2、客户端拿到块位置信息后，会去和相关的DataNode直接构建读取通道，读取数据块，当所有数据块都读取完成后关闭通道，并给NameNode返回状态信息，告诉NameNode已经读取完毕。
写流程：
1、HDFS客户端提交写操作到NameNode上，NameNode收到客户端提交的请求后，会先判断此客户端在此目录下是否有写权限，如果有，然后进行查看，看哪几个DataNode适合存放，再给客户端返回存放数据块的节点信息，即告诉客户端可以把文件存放到相关的DataNode节点下。
2、客户端拿到数据存放节点位置信息后，会和对应的DataNode节点进行直接交互，进行数据写入，由于数据块具有副本replication，在数据写入时采用的方式是先写第一个副本，写完后再从第一个副本的节点将数据拷贝到其它节点，依次类推，直到所有副本都写完了，才算数据成功写入到HDFS上，副本写入采用的是串行，每个副本写的过程中都会逐级向上反馈写进度，以保证实时知道副本的写入情况。
3、随着所有副本写完后，客户端会收到数据节点反馈回来的一个成功状态，成功结束后，关闭与数据节点交互的通道，并反馈状态给NameNode,告诉NameNode文件已成功写入到对应的DataNode。

最低0.47元/天解锁文章