编写 API 完成 HDFS shell 操作

最新推荐文章于 2025-06-18 15:55:12 发布

LWTalon

最新推荐文章于 2025-06-18 15:55:12 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据入门

本文链接：https://blog.youkuaiyun.com/m0_37294799/article/details/76906384

本文介绍了如何通过API来完成HDFS的shell操作。HDFS作为分布式文件系统，依赖NameNode和DataNode的主从结构，提供高容错和高吞吐量的数据处理能力。文章提到NameNode存储元数据，DataNode负责数据存储并定期报告数据块信息。HDFS的文件被分割为数据块并进行复制以保证可靠性。API编写部分虽然未展示具体代码，但指出可以通过hadoop fs -help查看所有命令的详细格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

API 完成 HDFS shell 操作

HDFS作为一种分布式文件系统，有着高容错、高吞吐量、处理大数据集等优点，是hadoop核心之一。其内部的主从结构，由一个NameNode和多个DataNode组成。
主节点 NameNode 存储元数据和映射，维护命名空间。
从节点 DataNode 存储具体文件数据，接口用户对文件的具体操作，定期向NN发送自己数据块的列表（块对应具体文件的一部分）。
其他信息
数据块（128M）存储文件的一部分，文件会分成块存储。
复制因子数据块的备份，数量一般为3。用于缓解访问单数据块的缓慢。
fsimage文件用于记录NN中的映射信息，例如某文件在哪些DN的哪些数据块中
edits文件用于记录NN中的元数据操作信息，例如读写了哪些文件
安全模式（无法进行任何对块的操作） NN开启时会检查所有数据块的复制因子，满足复制因子数量的块达到一定比例便会退出安全模式。退出后，将不满足的块复制到其他DN满足条件。如果达不到比例，手动关闭安全模式，可调比例等。

HDFS 的shell操作的命令类似与linux的操作命令，但又有格式上的不同。
输入hadoop fs -help便可查看所有命令详细格式。

这里写图片描述

API的编写

代码块

package com.hadoop.hdfs.api.test;

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class HDFSAPITest {
    FileSystem fileSystem=null;

    @Before
    public void init(){
        // TODO Auto-generated method stub
        System.out.println("1");
        Configuration conf=new Configuration();
        try{
            //连接hdfs类型的虚拟机  
            URI