Hadoop最完整最全的学习笔记（HDFS）_hadoop大海哥笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_43494997/article/details/103127494

本文详细介绍了Hadoop HDFS的学习笔记，包括HDFS块大小的设定依据，常用shell命令，客户端操作，API使用，数据流过程，NameNode与SecondaryNameNode的工作机制，以及NameNode故障处理和DataNode的角色。内容涵盖HDFS的基本概念、操作和维护，是学习Hadoop的宝贵资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一：Hadoop上block的大小的规定

在说hadoop上block规定的时候要提前说一下，就是在hadoop中，文件在物理上是分块储存（也就是block），块的大小可以通过配置参数（dfs.blocksize）来贵定，默认大小在hadoop2.x中是128M,老版本中是64M

那么我们为什么要定义block的大小呢，在运算的过程中，寻址时间为传输时间的1%的时候为最佳状态，也就是说我们要使机器运行的更快可以通过定义block的大小来改善。

那么默认大小128M是怎么来的呢？
目前磁盘普遍的传输速率是100M/s，寻址时间约为10ms，传输时间约为1s，取整后为128M

块的设置不能设置太大，也不能设置太小
1、hdfs的块设置太小，会增加寻址时间，程序一直在找块开始的位置
2、如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需要的时间，导致程序在出来这块数据的时候会变得非常慢。

总结：HDFS块大小的设置主要取决于磁盘的传输速率

二:Hadoop常用的shell命令

这里使用的命令如果没有注释就是在解压后的hadoop包下进行操作
（0）启动hadoop集群：

sbin/start-dfs.sh
sbin/start-yarn.sh（在resourcemanager的机器上进行启动命令）

（1）-help:输出这个命令参数

hadoop fs -help rm

（2）-ls：显示目录信息

hadoop fs -ls /

（3）-mkdir：在hdfs上创建目录

hadoop fs -mkdir -p(创建多级目录需要加) /tengxun/lianmeng

（4）-moveFromLocal：从本地剪切粘贴到HDFS

touch yasuo.txt
hadoop fs -moveFromLocal ./yasuo.txt /tengxun/lianmeng

（5）-appendToFile：追加一个文件到已存在的文件末尾(在hadoop中是没有修改这个操作的，只能进行追加)

touch ruiwen.txt
vim ruiwen.txt

写入
im your dad

hadoop -fs -appendToFile ruiwen.txt /tengxun/lianmeng/yasuo.txt

（6）-cat：显示文件内容

hadoop fs -cat /tengxun/lianmeng/yasuo.txt

（7）-chgrp（修改所有者的组）、-chomd（修改所有者的权限）、chown（修改所有者）：Linux文件系统中的用法一样，修改文件所属权限

hadoop fs -chomd 666 /tengxun/lianmeng/yasuo.txt
hadoop fs -chown liniuxpawn:liniuxpawn /tengxun/lianmeng/yasuo.txt

（8）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去

hadoop fs -copyFromLocal README.txt

（9）-copyToLocal：从HDFS拷贝到本地

hadoop fs -copyToLocal /tengxun/lianmeng/yasuo.txt ./

（10）-cp：从HDFS的一个文件拷贝到HDFS的另一个路径下

hadoop fs -cp /tengxun/lianmeng/yasuo.txt /yanque.txt

（11）-mv：在HDFS目录中移动文件

hadoop fs -mv /yanque.txt /tengxun/lianmeng/

（12）-get：等同于copyToLocal，就是从HDFS下载到本地

hadoop fs -get /tengxun/lianmeng/yasuo.txt ./

（13）-getmerge：合并下载多个文件，比如HDFS的目录 /aaa/下有多个文件:log.1,log.2,log.3…

hadoop fs -getmerge /tengxun/lianmeng/* ./yinxionglianmeng.txt

（14）-put：等同于copyFromLocal

hadoop fs -put ./yinxionglianmeng.txt /tengxun/lianmeng/

（15）-tail：显示一个文件的末尾

hadoop fs -tail /tengxun/lianmeng/yasuo.txt

（16）-rm：删除文件或文件夹

hadoop fs -rm /tengxun/lianmeng/yasuo.txt
hadoop fs -rmr(递归删除) /tengxun/lianmeng/

（17）-rmdir：删除空目录

hadoop fs -rmdir /tengxun

（18）-du：统计文件夹的信息

hadoop fs -du /                (默认是显示目录下的文件以及文件夹以及文件夹下的所有文件，单位是B)
hadoop fs -du -h /            (在原有的基础上修改了单位，可以更直观的查看大文件的大小)
hadoop fs -du -h -s /         (直接查看路径下此文件的大小)

（19）-setrep：设置hdfs中文件的副本数量

hadoop fs -setrep 3 /tengxun/lianmeng/yasuo.txt

三：HDFS客户端操作

（1）客户机环境准备

准备好在windows环境下编译好的hadoop源码

这里有文章具体讲述了如何在windows环境下编译hadoop源码
windows10下编译hadoop源码
 windows7下编译hadoop源码

配置hadoop的环境变量

HADOOP_HOME
在这里插入图片描述
path

打开eclipse配置maven

1.创建一个maven简单的项目
在pom.xml文件里写入

<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>jdk.tools</groupId>
			<artifactId>jdk.tools</artifactId>
			<version>1.8</version>
			<scope>system</scope>
			<systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
		</dependency>
</dependencies>

保存后，eclipse开始自动下载相应的maven环境

如果出现文件下载过慢，或者卡死的情况可以选择下载国内镜像的eclipse，即可解决下载的问题

如过出现pom文件报错的情况可以看下面篇博客
pom.xml文件报错

（2）在eclipse上运行maven项目

需要注意的是，运行的时候eclipse会报错，因为这个时候虚拟机开启的环境是在你的虚拟机用户上的，这个时候你用的是你windows环境下的用户，所以我们需要把用户改为你的虚拟机用户
具体操作：
右键项目run as configration
设置hadoop的username
在这里插入图片描述

（3）hdfs上的API操作

文件的上传、下载、文件夹删除、文件名修改，这几个基本的格式是一样的

获取文件系统

Configuration conf =new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9000"), conf, "liniuxpawn");

进行相关的操作
fs.操作（new Path(),new Path()）;
关闭资源
fs.close();

文件详情的查看

public void showThemessage() throws Exception, Exception, Exception {
	//获取fs对象
	Configuration conf = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop9000"), conf, "liniuxpawn");
	//查看文件详情
	RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
	while(listFiles.hasNext()) {
		LocatedFileStatus fileStatus = listFiles.next();
		
		//查看文件名称、权限、长度、块信息
		System.out.println(fileStatus.getPath().getName());
		System.out.println(fileStatus.getPermission());
		System.out.println(fileStatus.getLen());
		BlockLocation [] blockLocations = fileStatus.getBlockLocations();
		
		for(BlockLocation blockLocation : blockLocations) {
			String [] hosts = blockLocation.getHosts();
			
			for (String host : hosts) {
				System.out.println(host);
			}
		}
		System.out.println("==========================================");
		
				
	}
	
	fs.close();
}

判断一个文件是否为文件夹

public void testListStatus() throws IOException, InterruptedException, URISyntaxException{
		
	// 1 获取文件配置信息
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9000"), configuration, "liniuxpawn");
		
	// 2 判断是文件还是文件夹
	FileStatus[] listStatus = fs.listStatus(new Path("/"));
		
	for (FileStatus fileStatus : listStatus) {
		
		// 如果是文件
		if (fileStatus.isFile()) {
				System.out.println("f:"+fileStatus.getPath().getName());
			}else {
				System.out.println("d:"+fileStatus.getPath().getName());
			}
		}
		
	// 3 关闭资源
	fs.close();
}

（4）hdfs的I/O流操作

首先我说一下我了解的I/O流是什么，简单来说就是输入流指向你要操作的文件地址，输出流也是指向你要操作的地址。二者之间进行流的对拷即可完成一些操作

1.文件上传

public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException {

	// 1 获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9000"), configuration, "liniuxpawn");

	// 2 创建输入流
	FileInputStream fis = new FileInputStream(new File("e:/banhua.txt"));

	// 3 获取输出流
	FSDataOutputStream fos = fs.create(new Path("/banhua.txt"));

	// 4 流对拷
	IOUtils.copyBytes(fis, fos, configuration);

	// 5 关闭资源
	IOUtils.closeStream(fos);
	IOUtils.closeStream(fis);
    fs.close();
}

2.文件下载

public void getFileFromHDFS() throws IOException, InterruptedException, URISyntaxException{

	// 1 获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9000"), configuration, "liniuxpawn");
		
	// 2 获取输入流
	FSDataInputStream fis = fs.open(new Path("/banhua.txt"));
		
	// 3 获取输出流
	FileOutputStream fos = new FileOutputStream(new File("e:/banhua.txt"));
		
	// 4 流的对拷
	IOUtils.copyBytes(fis, fos, configuration);
		
	// 5 关闭资源
	IOUtils.closeStream(fos);
	IOUtils.closeStream(fis);
	fs.close();
}

用I/O流进行HDFS文件的分块下载

（1）下载第一块
@Test
public void readFileSeek1() throws IOException, InterruptedException, URISyntaxException{

	// 1 获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9000"), configuration, "liniuxpawn");
	// 2 获取输入流
	FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.2.tar.gz"));
		
	// 3 创建输出流
	FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.2.tar.gz.part1"));
		
	// 4 流的拷贝
	byte[] buf = new byte[1024];
		
	for(int i =0 ; i < 1024 * 128; i++){
		fis.read(buf);
		fos.write(buf);
	}
		
	// 5关闭资源
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
fs.close();
}
（2）下载第二块
@Test
public void readFileSeek2() throws IOException, InterruptedException, URISyntaxException{

	// 1 获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9000"), configuration, "liniuxpawn");
		
	// 2 打开输入流
	FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.2.tar.gz"));
		
	// 3 定位输入数据位置
	fis.seek(1024*1024*128);
		
	// 4 创建输出流
	FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.2.tar.gz.part2"));
		
	// 5 流的对拷
	IOUtils.copyBytes(fis, fos, configuration);
		
	// 6 关闭资源
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
}
（3）合并文件
在Window命令窗口中进入到目录E:\，然后执行如下命令，对数据进行合并
type hadoop-2.7.2.tar.gz.part2 >> hadoop-2.7.2.tar.gz.part1
合并完成后，将hadoop-2.7.2.tar.gz.part1重新命名为hadoop-2.7.2.tar.gz。解压发现该tar包非常完整。

（5）HDFS的数据流

1.文件写入

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2）NameNode返回是否可以上传。
3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

2.网络拓扑节点距离计算

节点距离：两个节点到达最近的共同祖先的距离总和。

3.机架感知，节点副本选择

第一个副本在Client所处的节点上。如果客户机在集群外，随机选一个
第二个副本和第一个副本位于相同的机架，随机节点
第三个副本位于不同机架不同节点

（6）NameNode和SecondaryNamaNode

NN和2NN的工作机制

首先我们要知道NameNode中的元数据是储存在哪里的。我们做一个假设，如果储存在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存种，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage
这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失，因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据的时候，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。
但是，如果长时间添加数据到Edits中。会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode,专门用户FsImage和Edits的合并。
在这里插入图片描述

第一阶段：NameNode启动
（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
（2）客户端对元数据进行增删改的请求。
（3）NameNode记录操作日志，更新滚动日志。
（4）NameNode在内存中对数据进行增删改。
第二阶段：Secondary NameNode工作
（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。
（2）Secondary NameNode请求执行CheckPoint。
（3）NameNode滚动正在写的Edits日志。
（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。
（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
（6）生成新的镜像文件fsimage.chkpoint。
（7）拷贝fsimage.chkpoint到NameNode。
（8）NameNode将fsimage.chkpoint重新命名成fsimage。

NN和2NN工作机制详解：

Fsimage：NameNode内存中元数据序列化后形成的文件。
Edits：记录客户端更新元数据信息的每一步操作（可通过Edits运算出元数据）。
NameNode启动时，先滚动Edits并生成一个空的edits.inprogress，然后加载Edits和Fsimage到内存中，此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发送元数据的增删改的请求，这些请求的操作首先会被记录到edits.inprogress中（查询元数据的操作不会被记录在Edits中，因为查询操作不会更改元数据信息），如果此时NameNode挂掉，重启后会从Edits中读取元数据的信息。然后，NameNode会在内存中执行元数据的增删改的操作。
由于Edits中记录的操作会越来越多，Edits文件会越来越大，导致NameNode在启动加载Edits时会很慢，所以需要对Edits和Fsimage进行合并（所谓合并，就是将Edits和Fsimage加载到内存中，照着Edits中的操作一步步执行，最终形成新的Fsimage）。SecondaryNameNode的作用就是帮助NameNode进行Edits和Fsimage的合并工作。
SecondaryNameNode首先会询问NameNode是否需要CheckPoint（触发CheckPoint需要满足两个条件中的任意一个，定时时间到和Edits中数据写满了）。直接带回NameNode是否检查结果。SecondaryNameNode执行CheckPoint操作，首先会让NameNode滚动Edits并生成一个空的edits.inprogress，滚动Edits的目的是给Edits打个标记，以后所有新的操作都写入edits.inprogress，其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地，然后将拷贝的Edits和Fsimage加载到内存中进行合并，生成fsimage.chkpoint，然后将fsimage.chkpoint拷贝给NameNode，重命名为Fsimage后替换掉原来的Fsimage。NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可，因为合并过的Edits中的元数据信息已经被记录在Fsimage中。

（7）Namenode故障处理

NameNode故障后，可以采用如下两种方式来进行修复
方法一：将SecondaryNameNode中数据拷贝到NameNode存储数据的目录；

kill -9 NameNode进程
删除NameNode存储的数据（/opt/module/hadoop-2.7.2/data/tmp/dfs/name）
[liniuxpawn@hadoop1 hadoop-2.7.2]$ rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*
拷贝SecondaryNameNode中数据到原NameNode存储数据目录
[liniuxpawn@hadoop1 dfs]$ scp -r atguigu@hadoop104:/opt/module/hadoop-2.7.2/data/tmp/dfs/namesecondary/* ./name/
重新启动NameNode
[liniuxpawn@hadoop1 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

方法二：使用-importCheckpoint选项启动NameNode守护进程，从而将SecondaryNameNode中数据拷贝到NameNode目录中。

修改hdfs-site.xml中的

<property>
  <name>dfs.namenode.checkpoint.period</name>
  <value>120</value>
</property>

<property>
  <name>dfs.namenode.name.dir</name>
  <value>/opt/module/hadoop-2.7.2/data/tmp/dfs/name</value>
</property>

kill -9 NameNode进程
删除NameNode存储的数据（/opt/module/hadoop-2.7.2/data/tmp/dfs/name）
[liniuxpawn@hadoop1 hadoop-2.7.2]$ rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*
如果SecondaryNameNode不和NameNode在一个主机节点上，需要将SecondaryNameNode存储数据的目录拷贝到NameNode存储数据的平级目录，并删除in_use.lock文件
[liniuxpawn@hadoop1 dfs]$ scp -r atguigu@hadoop104:/opt/module/hadoop- 2.7.2/data/tmp/dfs/namesecondary ./

[liniuxpawn@hadoop1 namesecondary]$ rm -rf in_use.lock

导入检查点数据（等待一会ctrl+c结束掉）
[liniuxpawn@hadoop1 hadoop-2.7.2]$ bin/hdfs namenode -importCheckpoint
启动NameNode
[liniuxpawn@hadoop1 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

（8）DataNode

DataNode的工作机制
在这里插入图片描述
1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
4）集群运行中可以安全加入和退出一些机器。