Hadoop 源码解析 No.1 NameNode

最新推荐文章于 2024-12-06 14:52:00 发布

原创最新推荐文章于 2024-12-06 14:52:00 发布 · 351 阅读

0 ·

CC 4.0 BY-SA版权

hadoop 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了Hadoop 2.9版本中NameNode的启动过程及核心功能，详细解析了NameNode如何管理文件系统的命名空间和数据块分配。

Hadoop 源码解析 No.1 NameNode

注：本人使用的版本是 2.9，并且确保你的机器上已经安装了Source

在新版的Hadoop 当中启动模式已经从

$bin/hadoop  ⇒  $bin/hdfs

我们打开这个文件：

if [ "$COMMAND" = "namenode" ] ; then
CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode'
HADOOP_OPTS="$HADOOP_OPTS $HADOOP_NAMENODE_OPTS"

可以看到最终指向的是 org.apache.hadoop.hdfs.server.namenode.NameNode 方法。

打开对应的文件，可以看到官方给的注释。

每一个HDFS系统都包含有一个单一的 “namenode” (在这里备份的 namenode 不算)。 NameNode 可以作为HDFS中文件目录和文件分配的管理者，保存最重要的东西，主要有这两个：

 1. 文件名    ⇒  块序列（命名空间）
 2. 数据块    ⇒  机器列表(inode)

其中文件到数据块映射保存在 namenode 当中，而数据块到机器映射关系则由 DataNode 上报之后建立起来。

未完待续

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

郑斯道

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hadoop3.x 之源码解析完整使用 (第十三章)

小坏说Java，一个专注Java微服务架构的实战，Java全栈教程，SpringBoot, SpringCloud微服务到分布式、高并发架构，大数据开发，运维实战，K8S、Docker容器为一体的教程，结合企业级内部的技术栈学习

08-16

953

Hadoop3.x 之学习问题总结123 1 2 3

hadoop中NameNode节点CPU使用量高解决方案（亲测）

qq_30498935的博客

08-23

5184

集群中任务执行超慢，查原因 top一下查看19118进程发现这个节点是NameNode节点然后 ps aux |grep 19118 jstat -gcutil 19118 1000 1000查看jvm GC GC超高问题就是namenode负载太高，内存不够用导致CPU飙升解决方案调整hadoop_namenode_heapsize参数调到16G（按照集群情...

参与评论您还未登录，请先登录后发表或查看评论

hadoop内存大小设置问题

不积跬步，无以致千里；不积小流，无以成江海

07-13

1万+

前面博客里面提到，运行一次hadoop的时候出现java heap error。字面意思分配堆的时候出现错误，我们知道应用程序的动态内存的分配均在堆里面。这里提示堆错误，那必然是内存不够用了。那么这个namenode内存的大小该怎么取值呢？ namenode管理着集群里面所有文件的信息。简单根据文件信息给出一个准确计算内存大小的公式是不现实的。 hadoop默认namenode内存的大小为10

prometheus+grafana 监控hadoop、yarn

c275090933的专栏

08-27

1万+

主要是以jmx_exporter、prometheus为主导进行对hadoop的metrics进行收集，通过grafana进行展示、预警。 1、安装jmx_exporter以及配置文件 1、通过https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.3.1/jmx_prometheus_javaag...

Hadoop配置文件

weixin_30426879的博客

08-19

1006

部分内容参考：http://www.linuxqq.net/archives/964.html http://slaytanic.blog.51cto.com/2057708/1100974/ hadoop的重要配置文件有以下几个：在1.2.1版本中，core-default.xml有73个属性，hdfs-default.xml有76个属性，...

hadoop namenode进程参数调整

wuzhilon88的专栏

03-14

4715

修改hadoop-env.sh添加 vi $HADOOP_HOME/conf/hadoop-env.sh export HADOOP_NAMENODE_OPTS="-Xmx16384m -Xms4096m -Xmn2048m -verbose:gc -Xloggc:/usr/local/fqlhadoop/logs/hdfs/namenode.gc.log -XX:E

Hadoop之DataNode启动源码解析

qq_45115959的博客

08-17

740

DataNode类是 Hadoop 分布式文件系统 (HDFS) 中的一个核心组件，它负责存储文件系统的数据块。每个部署可以包含一个或多个DataNode实例。DataNode与NameNode通信以报告其存储状态，并响应来自NameNode的指令，如删除或复制块等操作。此外，DataNode还需要与客户端代码和其他DataNode进行交互。

Hadoop之NameNode源码分析（一）

prefect_start的博客

12-19

1332

1、RPC通信原理解析 1.1、需求：模拟RPC的客户端、服务端、通信协议三者如何工作的 1.2、代码编写：（1）在HDFSClient项目基础上创建包名com.atguigu.rpc （2）创建RPC协议 package com.song.rpc; public interface RPCProtocol { long versionID = 666; void mkdirs(String path); } （3）创建RPC服务端 package com.song.rpc

Hadoop源码篇 --- NameNode的启动流程解析

说出你的愿望吧

01-06

1088

前言提醒一下，这里面需要有RPC的基础，如果对RPC没有了解的朋友，可以先跳转到以往写的两篇RPC文章中。理论方面：从零开始的高并发（七）— RPC的介绍，协议及框架（可略过）代码方面：从零开始的高并发（八）— RPC框架的简单实现当然也不需要太过深入，知道点皮毛即可。因为Hadoop中有一个Hadoop RPC需要有点基础知识。暂时先记得下面的满足RPC的条件（非完整）： 1.不同进程...

【RBF SBN READ】hadoop社区基于RBF的SBN READ请求流转

qq_41258650的博客

12-06

1312

RBF SBN READ

hadoop 源码分析（二）HDFS nameNode 之 FSNamesystem初始化源码分析之加载fsImage 和 edits log

wangxuelei036的博客

01-16

1052

上一篇讲解了nameNode启动的时候，NameNodeHttpServer的启动流程，其实简单来说就是基于hadoop自己实现的HttpServer2服务绑定一个InetSokcetAddress地址，也就是端口号，端口号哪来的？默认配置文件获取呗，最后在将HttpServer2中绑定一些servlet来处理url请求就完成了我们50070端口的请求处理。那么本篇分析nameNode进程第二个比较核心的，应该说是最核心的组件FSNamesystem，为什么说是最核心组件呢，因为元数据管理和bloc.

关于hadoop namenode jvm设置的思考与调整

leo的大数据之路

04-24

4896

这两天经常会收到hadoop namenode 内存使用百分比的告警，经常收到告警是一个讨厌的事情，是不是说明我们系统超负荷有问题了？怎么样解决这个问题？这两天一直在仔细查考测试这个问题，现将我的思考说明一下。 1. 首先，这个告警message说的是namenode这台机器真的内存的使用百分比，其实并不太准确。事实上它不是说明机器内存用光了，而是namenode的jvm进程堆内存使用

Hadoop双namenode配置搭建（HA）

热门推荐

Trigl的博客

02-14

1万+

配置双namenode的目的就是为了防错，防止一个namenode挂掉数据丢失，具体原理本文不详细讲解，这里只说明具体的安装过程。 Hadoop HA的搭建是基于Zookeeper的，关于Zookeeper的搭建可以查看这里 hadoop、zookeeper、hbase、spark集群环境搭建，本文可以看做是这篇文章的补充。这里讲一下Hadoop配置安装。配置Hadoop文件需要修

Flume 三大组件 & 逻辑结构

再见孙悟空

10-22

1万+

Flume 主要由三个重要的组件构成： Source ：完成对日志数据的收集，分成transtion 和 even 打入到 channel 中。 Channel ：主要提供一个队列的功能，对 source 提供中的数据进行简单的缓存。 Sink：取出 channel 中的数据，进行相应的存储文件系统，数据库，或者提交到远程服务器。简单点： Source：收集信息 Channel：传递信息

CaffeOnSpark 安装遇到的一系列问题

再见孙悟空

10-25

2390

入职虹软第一天：任务搭建一个搭建一个CaffeOnSpark的测试集群，状态：未完成。遇到的问题： 1在搭建 Hadoop 集群的时候，按照配置执行完两个重要的配置：core-site.xml 和 hdfs-site.xml 然后运行命令： ./bin/hdfs namenode -format 出现这样的错误：提示 Error: JAVA_HOME is not set and co

Ubuntu-16.04 下 Hadoop-2.8.0环境搭建

再见孙悟空

07-11

2123

学习如何在Linux上部署Hadoop集群第一步：在Ubuntu16.04下部署JDK环境Hadoop的前提是需要有Java环境。建议安装JDK1.6以上的版本以供使用。 JDK下载地址：我这里使用的是1.8 Linux-64的。注意：结尾是tar.gz结尾的！下载完成之后把包考入Ubuntu系统：sudo tar -zxcf /home/Desttop/jdk-8u131-linux-x6

Hadoop 2.8.0 全分布模式下遇见的坑

再见孙悟空

07-14

2050

我这里设置了三台机子：全是Ubuntu 16.04192.168.244.120 Master 192.168.244.128 Slave1.Hadoop 192.168.244.130 Slave2.Hadoop 备注：机子上已经全部安装了，JDK1.8，Hadoop-2.8.0 ，ssh 并且设置好无密码登录。以下是我碰见的所有坑：java.io.EOFException: End of

Eclipse 运行WordCount实例（连接Linux下的Hadoop集群）

再见孙悟空

07-19

1698

在Eclipse连接运载在Linux上的Hadoop之前，请先保证Hadoop是运行状态。本人的hadoop配置文件： core-site.xml 19 <configuration> 20 <property> 21 <name>hadoop.tmp.dir</name> 22 <value>file:/usr/local/hadoop-2.8.

MapReduce 实现倒序索引

再见孙悟空

08-02

1502

倒序索引简介“倒排索引”是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。关于倒序索引更加详细的介绍MapReduce实现倒序索引Hadoop 将数据传给 map

25/10/24 00:40:34 WARN namenode.FSNamesystem: Encountered exception loading fsimage java.io.FileNotFoundException: No valid image files found at org.apache.hadoop.hdfs.server.namenode.FSImageTransactionalStorageInspector.getLatestImages(FSImageTransactionalStorageInspector.java:165) at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:671) at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:322) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1052) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:681) at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:666) at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:728) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:953) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:932) at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1673) at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1741) 25/10/24 00:40:34 INFO mortbay.log: Stopped HttpServer2$SelectChannelConnectorWithSafeStartup@hadoop1:50070 25/10/24 00:40:34 INFO impl.MetricsSystemImpl: Stopping NameNode metrics system... 25/10/24 00:40:34 INFO impl.MetricsSystemImpl: NameNode metrics system stopped. 25/10/24 00:40:34 INFO impl.MetricsSystemImpl: NameNode metrics system shutdown complete. 25/10/24 00:40:34 ERROR namenode.NameNode: Failed to start namenode. java.io.FileNotFoundException: No valid image files found at org.apache.hadoop.hdfs.server.namenode.FSImageTransactionalStorageInspector.getLatestImages(FSImageTransactionalStorageInspector.java:165) at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:671) at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:322) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1052) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:681) at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:666) at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:728) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:953) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:932) at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1673) at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1741) 25/10/24 00:40:34 INFO util.ExitUtil: Exiting with status 1: java.io.FileNotFoundException: No valid image files found 25/10/24 00:40:34 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at hadoop1/192.168.10.161 ************************************************************/

最新发布

10-25

<think>我们正在解决Hadoop NameNode启动时出现`java.io.FileNotFoundException: No valid image files found`错误的问题。根据引用[1]和引用[3]，该错误表明NameNode在启动时无法找到有效的fsimage文件（文件系统镜像）。fsimage文件存储了HDFS文件系统的元数据，是NameNode启动所必需的。引用[4]提到在HA（高可用）环境中，可以通过从Active NameNode复制持久化文件（包括fsimage和edits）到Standby NameNode来解决这个问题。但在非HA环境中，解决方法可能不同。以下是解决这个问题的步骤，分为两种情况：非高可用环境（单NameNode）和高可用环境（多NameNode）： ### 一、非高可用环境（单NameNode） 1. **检查NameNode的元数据存储目录**：首先，查看`hdfs-site.xml`配置文件，找到`dfs.namenode.name.dir`属性指定的目录（多个目录用逗号分隔）。这些目录是NameNode存储元数据的地方，包括fsimage和edits文件。例如，配置可能如下： ```xml <property> <name>dfs.namenode.name.dir</name> <value>/data/hadoop/namenode,/data2/hadoop/namenode</value> </property> ``` 进入这些目录，检查是否存在`current`子目录，并且该子目录下是否有fsimage文件（通常以`fsimage_*`开头）和`VERSION`文件。 2. **检查SecondaryNameNode（如果配置）**：在非HA环境中，SecondaryNameNode会定期合并NameNode的edits和fsimage。因此，如果NameNode的元数据丢失，可以从SecondaryNameNode恢复。 - 查看`hdfs-site.xml`中`dfs.namenode.checkpoint.dir`属性指定的目录（这是SecondaryNameNode存储合并后的fsimage的目录）。 - 进入该目录下的`current`子目录，找到最新的fsimage文件（通常文件名中包含最大的事务ID）。 - 将SecondaryNameNode上的最新fsimage和对应的edits文件（如果需要）复制到NameNode的元数据存储目录（`dfs.namenode.name.dir`指定的目录）中，并确保文件权限正确（由运行NameNode的用户拥有）。 - 具体操作步骤（假设SecondaryNameNode的检查点目录为`/data/hadoop/secnn`）： ```bash # 在SecondaryNameNode节点上操作 cd /data/hadoop/secnn/current # 找到最新的fsimage文件，例如：fsimage_0000000000000001234 # 同时需要复制对应的md5校验文件（如果有）和最新的edits文件（如果从检查点之后还有新的edits，但通常SecondaryNameNode只合并到某个点，所以可能需要从NameNode的edits目录中获取之后的edits，但这里NameNode已经无法启动，所以只能恢复到检查点状态） # 将整个current目录复制到NameNode的元数据目录（覆盖） scp -r current/ namenode-host:/data/hadoop/namenode/ ``` - 然后在NameNode节点上，确保复制的文件权限正确（例如，如果Hadoop由用户hadoop运行，则执行`chown -R hadoop:hadoop /data/hadoop/namenode`）。 3. **如果SecondaryNameNode也没有可用镜像**：如果无法从SecondaryNameNode恢复，那么可能需要： - **格式化NameNode**：但这会丢失所有元数据，因此HDFS上的文件将无法访问（相当于新建一个空的HDFS）。只有在确定可以丢失数据时才这样做。 ```bash hdfs namenode -format ``` 注意：格式化后，原有的DataNode存储的数据块将无法被识别（因为集群ID会改变），因此需要同时清理所有DataNode的数据目录（`dfs.datanode.data.dir`），然后重新启动集群。这将导致所有数据丢失！ ### 二、高可用环境（HA，有两个或多个NameNode）在HA环境中，通常使用JournalNode来共享edits，因此NameNode的元数据存储目录（`dfs.namenode.name.dir`）应该包含从JournalNode同步的元数据。但当出现该错误时，可以尝试以下步骤： 1. **从另一个Active/Standby NameNode复制元数据**：引用[4]提到，可以将Active NameNode的元数据目录（`current`目录）复制到另一个NameNode（Standby）的元数据目录。同样，如果其中一个NameNode有有效的fsimage，可以复制到出错的NameNode节点上。 - 找到另一个NameNode节点（Active或Standby）上`dfs.namenode.name.dir`指定的目录（例如`/hadoop/namenode/current`）。 - 将该`current`目录复制到出错的NameNode节点的相同目录下（覆盖）。 - 确保文件权限正确。 - 然后尝试启动NameNode。 2. **使用JournalNode恢复**：在HA环境中，NameNode启动时会从JournalNode获取edits日志并应用到fsimage上。如果本地没有fsimage，但JournalNode中有足够的事务日志，NameNode也可以重建元数据。不过，错误信息表明NameNode没有找到任何有效的镜像文件，所以可能需要从另一个NameNode获取基础镜像。 3. **使用bootstrapStandby初始化**：如果是新部署的Standby NameNode，或者元数据目录为空，可以使用以下命令从Active NameNode复制元数据： ```bash hdfs namenode -bootstrapStandby ``` 该命令会从Active NameNode复制命名空间信息（fsimage）到本地，并初始化JournalNode。 ### 三、通用步骤 1. **检查日志文件权限**：引用[2]中出现了权限问题（`Permission denied`）。因此，确保NameNode日志目录（`$HADOOP_HOME/logs`）和元数据存储目录（`dfs.namenode.name.dir`）对运行NameNode的用户（如hadoop）有读写权限。 ```bash chown -R hadoop:hadoop /path/to/logs chown -R hadoop:hadoop /path/to/namenode/dir ``` 2. **检查文件系统镜像的完整性**：有时候，fsimage文件可能损坏。可以尝试使用Offline Image Viewer工具查看fsimage内容（如果有多个镜像文件，选择最新的）： ```bash hdfs oiv -p XML -i /path/to/fsimage_0000000000000001234 -o /tmp/fsimage.xml ``` 如果工具报错，说明文件已损坏，那么只能尝试使用旧的fsimage（如果有）或者从SecondaryNameNode/另一个NameNode恢复。 3. **检查配置**：确保`hdfs-site.xml`中配置的元数据存储路径（`dfs.namenode.name.dir`）正确，并且该路径有足够的磁盘空间。 4. **尝试回滚到上一个检查点（如果存在）**：在NameNode的元数据存储目录下，可能有多个fsimage文件（每次检查点都会生成新的）。如果最新的fsimage损坏，可以尝试删除它，然后使用前一个fsimage文件（将文件名改为最新的，同时调整`seen_txid`文件中的事务ID）。 5. **重建元数据（最后手段）**：如果以上方法都失败，并且没有备份，那么可能需要格式化NameNode并重建HDFS。但这是万不得已的做法，因为会丢失所有数据。 ### 总结解决`No valid image files found`错误的核心是恢复有效的fsimage文件。优先考虑从SecondaryNameNode（非HA）或另一个NameNode（HA）复制元数据。同时，注意文件权限和配置正确性。如果无法恢复，格式化NameNode是最后的选择，但会丢失数据。希望这些步骤能帮助你解决问题。 §§相关问题§§ 1. 如何配置Hadoop NameNode的高可用性（HA）？ 2. SecondaryNameNode在Hadoop中的作用是什么？ 3. Hadoop NameNode的元数据存储结构是怎样的？ 4. 如何定期备份Hadoop NameNode的元数据以防止数据丢失？ 5. 在Hadoop HA环境中，JournalNode的作用是什么？ </think>### Hadoop NameNode启动报错`java.io.FileNotFoundException: No valid image files found`的解决方法此错误表明NameNode无法找到有效的元数据镜像文件（`fsimage`），导致启动失败。以下是分步解决方案： #### 一、检查核心配置与权限 1. **验证元数据存储路径** - 检查`hdfs-site.xml`中的配置项： ```xml <property> <name>dfs.namenode.name.dir</name> <value>/path/to/namenode/data</value>  </property> ``` - 进入该路径确认`current`目录存在，且包含： - `fsimage_*` 文件（如 `fsimage_0000000000000001234`） - `edits_*` 文件 - `VERSION` 文件 - 若目录为空或文件缺失，进入下一步恢复操作[^1][^3]。 2. **修复文件权限** 权限问题常见于日志报错`Permission denied`[^2]： ```bash chown -R hadoop:hadoop /path/to/namenode/data # hadoop为运行用户 chmod 700 /path/to/namenode/data/current ``` --- #### 二、恢复元数据文件 ##### 方案1：从SecondaryNameNode恢复（非HA环境） 1. **定位SecondaryNameNode的检查点目录** - 在`hdfs-site.xml`中查找： ```xml <property> <name>dfs.namenode.checkpoint.dir</name> <value>/path/to/secnn/data</value> </property> ``` 2. **复制最新fsimage和edits** ```bash # 在SecondaryNameNode节点操作 cd /path/to/secnn/data/current scp fsimage_* edits_* VERSION hadoop@namenode-host:/path/to/namenode/data/current/ ``` ##### 方案2：从另一个NameNode恢复（HA环境） 1. 在Active NameNode节点找到元数据目录（同步骤一） 2. 复制整个`current`目录到故障节点[^4]： ```bash scp -r /path/to/active-nn/current hadoop@standby-nn-host:/path/to/namenode/data/ ``` --- #### 三、验证并重启 1. **检查文件完整性** - 确认`current`目录包含： - 至少一个`fsimage_*`和`edits_*` - `seen_txid`文件（记录最新事务ID） - `VERSION`文件（集群ID一致） 2. **启动NameNode** ```bash hdfs --daemon start namenode # 单独启动 # 或 start-dfs.sh # 完整启动 ``` 3. **检查日志** ```bash tail -100f $HADOOP_HOME/logs/hadoop-*-namenode-*.log ``` 成功启动会显示： `Successfully loaded image with txid=XXX` --- #### 四、极端情况处理若所有备份不可用： 1. **格式化NameNode（数据会丢失！）** ```bash hdfs namenode -format ``` 2. **清理所有DataNode数据** 删除所有节点的`dfs.datanode.data.dir`目录内容，否则DataNode会因ClusterID不匹配拒绝注册[^3]。 > **关键提示**： > - 操作前备份元数据目录 > - HA环境中优先通过JournalNode自动恢复 > - 定期启用[元数据备份策略](https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsMetadataGenerator.html)