Hadoop（HDFS）

最新推荐文章于 2023-02-07 08:30:00 发布

原创最新推荐文章于 2023-02-07 08:30:00 发布 · 468 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Hadoop 专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了Hadoop的分布式文件系统HDFS，包括HDFS的产生背景、优缺点、组成架构，如NameNode、DataNode的角色，以及文件块大小的选择考虑。此外，还列举了HDFS的常用shell操作命令，如ls、mkdir、put、get等，并展示了HDFS的Java API操作文件、目录和文件夹的方法。文章还探讨了HDFS的读写流程、NameNode与SecondaryNameNode的工作机制、安全模式以及DataNode的功能。最后，提到了HDFS 2.x的新特性，如集群间数据拷贝和小文件存档的解决方案。

部署运行你感兴趣的模型镜像

HDFS
学习内容Hadoop(HDFS)


   1.HDFS的概述

       01.   为何会产生HDFS？
           随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统，HDFS只是分布式管理系统中的一种。

           定义：
           HDFS(Hadoop Distributed File System)，他一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式，由多台服务器联合起来实现功能，集群中服务器有各自的角色。

       02.   HDFS 优缺点

           优点：高容错性、适合处理大数据、可构建在廉价机器上通过多副本机制，提高可靠性。
           缺点：不适合低延时数据访问、无法高效的对大量小文件进行存储、仅支持数据append（追加）不支持文件的随机修改

       03.   HDFS 组成架构

           NameNode(nn):就是Master，它是一个主管、管理者

               1.管理HDFS的名称空间
               2.配置副本策略
               3.管理数据块(Block)映射信息
               4.处理客户端读写请求

           DataNode：就是Slave NameNode下达命令 DataNode执行实际操作

               1.存储实际的数据块
               2.执行数据块的读/写操作

           Client：就是客户端

               1.文件切分，文件上传HDFS的时候，Client将文件切分成一个一个Block，然后进行上传
               2.与NameNode交互，获取文件的位置信息
               3.与Ddata交互，读取或者写入数据
               4.Client提供一些命令来管理HDFS，比如NameNode格式化
               5.Client可以通过一些命令来访问HDFS，比如对HDFS增删改查操作

           SecondaryNameNdoe：并非NameNode的热备。当NameNode挂掉的时候，他并不能马上替换NameNode并提供服务

               1.辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode
               2.在紧急情况下，可以辅助恢复NameNode


       04.   HDFS文件块大小
               HDFS的文件在物理上是分块存储，块的大小是可以通过配置参数来规定的，默认大小在Hadoop2x版本中是128M，老版本中是64M

           为什么块的大小不能设置太小，也不能设置太大？

               1.HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置
               2.如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序处理这块数据时，会非常慢。


   2.   HDFS上的shell操作命令

           （2）-ls: 显示目录信息
               用法1：hadoop fs -ls /
               功能：列出hdfs文件系统根目录下的目录和文件
               用法2：hadoop fs -ls -R /
               功能：列出hdfs文件系统所有的目录和文件

           （3）-mkdir：在HDFS上创建目录
               用法1：hadoop fs -mkdir <hdfs path>
               功能：只能一级一级的建目录，父目录不存在的话使用这个命令会报错
               用法2：hadoop fs -mkdir -p <hdfs path>
               功能：所创建的目录如果父目录不存在就创建该父目录

           （4）-moveFromLocal：从本地剪切粘贴到HDFS
               用法：hadoop fs -moveFromLocal <local src> <hdfs dst>
               功能：与put相类似，命令执行后源文件 local src 被删除

           （5）-appendToFile：追加一个文件到已经存在的文件末尾
               用法：hadoop fs -appendToFile <local src> <hdfs dst>
               功能：将一本地文件中的内容拼接在hdfs文件中

               -cat：显示文件内容

           （6）-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限、
               用法：hadoop fs -chown 用户名:组名 <hdfs file>
               功能：修改文件或目录所属用户和组,递归加参数-R,chmod

           （7）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去
               用法：hadoop fs -copyFromLocal <local src> <hdfs dst>
               功能：与put相类似

           （9）copyToLocal：从HDFS拷贝到本地
               用法：hadoop fs -copyToLocal <local src> <hdfs dst>
               功能：与get相类似

           （10）-cp ：从HDFS的一个路径拷贝到HDFS的另一个路径
               用法：hadoop fs -cp <hdfs file> <hdfs file>
               功能：目标文件不能存在，否则命令不能执行，相当于给文件重命名并保存，源文件还存在

           （11）-mv：在HDFS目录中移动文件
               用法：hadoop fs -mv <hdfs file> <hdfs file>
               功能：目标文件不能存在，否则命令不能执行，相当于给文件重命名并保存，源文件不存在

           （12）-get：等同于copyToLocal，就是从HDFS下载文件到本地
               用法：hadoop fs -get <hdfs file> <local file or dir>
               功能：local file不能和 hdfs file名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地

               -getmerge：合并下载多个文件，比如HDFS的目录 /user/jinghang/test下有多个文件:log.1, log.2,log.3,...

           （13）-put：等同于copyFromLocal
                   用法：hadoop fs -put <local file> <hdfs file>
               功能：hdfs file的父目录一定要存在，否则命令不会执行

           （15）-tail：显示一个文件的末尾
               用法：hadoop fs -tail <hdfs file>
               功能：查看大文件后10行

           （16）-rm：删除文件或文件夹
               用法1：hadoop fs -rm <hdfs file>
               功能：删除文件
               用法2：hadoop fs -rm -r <hdfs dir>
               功能：删除目录


   3.   Hadoop(HDFS客户端操作)

       1.HDFS的API操作

           01.HDFS文件上传代码
               @Test
               public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException {

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   configuration.set("dfs.replication", "2");
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");
                   // 2 上传文件
                   fs.copyFromLocalFile(new Path("e:/banzhang.txt"), new Path("/banzhang.txt"));
                   // 3 关闭资源
                   fs.close();
                   System.out.println("over");
               }

           02.HDFS文件下载代码
               @Test
               public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 执行下载操作
                   // boolean delSrc 指是否将原文件删除
                   // Path src 指要下载的文件路径
                   // Path dst 指将文件下载到的路径
                   // boolean useRawLocalFileSystem 是否开启文件校验
                   fs.copyToLocalFile(false, new Path("/banzhang.txt"), new Path("e:/banhua.txt"), true);

                   // 3 关闭资源
                   fs.close();
               }

           03.HDFS文件夹删除代码
               @Test
               public void testDelete() throws IOException, InterruptedException, URISyntaxException{

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 执行删除
                   fs.delete(new Path("/0508/"), true);

                   // 3 关闭资源

                   fs.close();
               }

           04.   HDFS文件名更改代码
               @Test
               public void testRename() throws IOException, InterruptedException, URISyntaxException{

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 修改文件名称
                   fs.rename(new Path("/banzhang.txt"), new Path("/banhua.txt"));

                   // 3 关闭资源
                   fs.close();
               }


           05.HDFS文件详情查看
               @Test
               public void testListFiles() throws IOException, InterruptedException, URISyntaxException{

                   // 1获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 获取文件详情
                   RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

                   while(listFiles.hasNext()){
                       LocatedFileStatus status = listFiles.next();

                       // 输出详情
                       // 文件名称
                       System.out.println(status.getPath().getName());
                       // 长度
                       System.out.println(status.getLen());
                       // 权限
                       System.out.println(status.getPermission());
                       // 分组
                       System.out.println(status.getGroup());

                       // 获取存储的块信息
                       BlockLocation[] blockLocations = status.getBlockLocations();

                       for (BlockLocation blockLocation : blockLocations) {

                           // 获取块存储的主机节点
                           String[] hosts = blockLocation.getHosts();

                           for (String host : hosts) {
                               System.out.println(host);
                           }
                       }

                       System.out.println("-----------班长的分割线----------");
                   }

               // 3 关闭资源
               fs.close();
               }


           06.HDFS文件和文件夹判断
               @Test
               public void testListStatus() throws IOException, InterruptedException, URISyntaxException{

                       // 1 获取文件配置信息
                       Configuration configuration = new Configuration();
                       FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                       // 2 判断是文件还是文件夹
                       FileStatus[] listStatus = fs.listStatus(new Path("/"));

                       for (FileStatus fileStatus : listStatus) {

                           // 如果是文件
                           if (fileStatus.isFile()) {
                                   System.out.println("f:"+fileStatus.getPath().getName());
                               }else {
                                   System.out.println("d:"+fileStatus.getPath().getName());
                               }
                           }

                       // 3 关闭资源
                       fs.close();
                   }

       2.HDFS的I/O流操作

           01.HDFS文件上传
               @Test
               public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException {

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 创建输入流
                   FileInputStream fis = new FileInputStream(new File("e:/banhua.txt"));

                   // 3 获取输出流
                   FSDataOutputStream fos = fs.create(new Path("/banhua.txt"));

                   // 4 流对拷
                   IOUtils.copyBytes(fis, fos, configuration);

                   // 5 关闭资源
                   IOUtils.closeStream(fos);
                   IOUtils.closeStream(fis);
                   fs.close();
               }

           02.HDFS文件下载

               @Test
               public void getFileFromHDFS() throws IOException, InterruptedException, URISyntaxException{

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 获取输入流
                   FSDataInputStream fis = fs.open(new Path("/banhua.txt"));

                   // 3 获取输出流
                   FileOutputStream fos = new FileOutputStream(new File("e:/banhua.txt"));

                   // 4 流的对拷
                   IOUtils.copyBytes(fis, fos, configuration);

                   // 5 关闭资源
                   IOUtils.closeStream(fos);
                   IOUtils.closeStream(fis);
                   fs.close();
               }

           03.HDFS文件定位读取

               @Test
               public void readFileSeek1() throws IOException, InterruptedException, URISyntaxException{

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 获取输入流
                   FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.2.tar.gz"));

                   // 3 创建输出流
                   FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.2.tar.gz.part1"));

                   // 4 流的拷贝
                   byte[] buf = new byte[1024];

                   for(int i =0 ; i < 1024 * 128; i++){
                       fis.read(buf);
                       fos.write(buf);
                   }

                   // 5关闭资源
                   IOUtils.closeStream(fis);
                   IOUtils.closeStream(fos);
               fs.close();
               }
               （2）下载第二块
               @Test
               public void readFileSeek2() throws IOException, InterruptedException, URISyntaxException{

                   // 1 获取文件系统
                   Configuration configuration = new Configuration();
                   FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "jinghang");

                   // 2 打开输入流
                   FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.2.tar.gz"));

                   // 3 定位输入数据位置
                   fis.seek(1024*1024*128);

                   // 4 创建输出流
                   FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.2.tar.gz.part2"));

                   // 5 流的对拷
                   IOUtils.copyBytes(fis, fos, configuration);

                   // 6 关闭资源
                   IOUtils.closeStream(fis);
                   IOUtils.closeStream(fos);
               }


   4.   HDFS的数据流

       01.HDFS写数据流程

           1.客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
           2.NameNode返回是否可以上传。
           3.客户端请求第一个 Block上传到哪几个DataNode服务器上。
           4.NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
           5.客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
           6.dn1、dn2、dn3逐级应答客户端。
           7.   客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，
               dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
           8.当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

       02.HDFS读数据流程

           1.客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
           2.挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
           3.DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
           4.客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。


   5.   NameNode和SecondaryNameNode

       01.nn和2nn的工作机制

           1. 第一阶段：NameNode启动
           （1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
           （2）客户端对元数据进行增删改的请求。
           （3）NameNode记录操作日志，更新滚动日志。
           （4）NameNode在内存中对元数据进行增删改。
           2. 第二阶段：Secondary NameNode工作
           （1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。
           （2）Secondary NameNode请求执行CheckPoint。
           （3）NameNode滚动正在写的Edits日志。
           （4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。
           （5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
           （6）生成新的镜像文件fsimage.chkpoint。
           （7）拷贝fsimage.chkpoint到NameNode。
           （8）NameNode将fsimage.chkpoint重新命名成fsimage。


       02.集群安全模式

           1.NameNode启动
               NameNode启动时，首先将镜像文件(Fsimage)载入内存，并执行编辑日志(Edits)中的各项操作，一旦在内存中成功建立文件系统元数据的映像，则创建一个新的Fsimage文件和一个空的编辑日志。此时NameNode开始监听DataNode请求。这个过程期间，NameNode一直运行在安全模式，即NameNode的文件系统对于客户端来说只读的。
           2.DataNode启动
               系统中的数据块的位置并不是由NameNode维护的，而是以块列表的形式存储在DataNode中。在系统正常操作期间，NameNode会在内存中保留所有块位置的映射信息，在安全模式下，各个DataNode会向NameNode发送最新的块列表信息，NameNode了解到足够多的块位置信息之后，即可高效运行文件系统。
           3.安全模式退出判断
               如果满足"最小副本条件"，NameNode会在30秒之后退出安全模式，所谓的最小副本条件指的是在整个文件系统中99.9%的块满足最小副本级别。在启动一个刚刚格式化的HDFS集群时，因为系统中还没有任何块，所以NameNode不会进入安全模式。

   6.   DataNode

       01.DataNode工作机制

           001.提供真实文件数据的存储服务
           002.文件块(block):最基本的存储单位。对于文件内容而言，一个文件长度大小是size，那么从文件0皮衣开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一块称为一个block,HDFS默认Block的大小是128MB,以一个256MB文件，则需要两个block，即256 / 128 = 2
           003.不同于普通文件系统的是，HDFS里面，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间
           dfs.block.size 可以修改block 的大小

           004.Replication 多副本，默认3个
           hdfs.xml中的dfs.replication属性



   7.   HDFS 2.X的新特性

       01.集群间数据拷贝

           scp实现两个远程主机之间的文件复制
           scp -r hello.txt root@hadoop103:/user/jinghang/hello.txt       // 推 push
           scp -r root@hadoop103:/user/jinghang/hello.txt hello.txt       // 拉 pull
           scp -r root@hadoop103:/user/jinghang/hello.txt root@hadoop104:/user/jinghang //是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

       02.小文件存档

           1.HDFS存储小文件弊端

               每个文件均按块存储，每个块数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。
               因为大量的小文件会耗尽NameNode中的大部分内存，但注意，存储小文件所需要的磁盘容量和数据块的大小无关。
               例如，一个1MB的文件设置为128MB的块存储，实际使用的1MB的磁盘空间，而不是128MB。

           2.解决存储小文件办法之一

               HDFS存档文件或HAR文件，是一个高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，
               允许对文件进行透明的访问具体来说HDFS存档文件对内还是一个一个独立文件，对NameNode恶言却是一个整体，减少了NameNode的内存。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

AI算力推荐

Python3.8

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

Conda

Python

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。