API 完成 HDFS shell 操作
HDFS作为一种分布式文件系统,有着高容错、高吞吐量、处理大数据集等优点,是hadoop核心之一。其内部的主从结构,由一个NameNode和多个DataNode组成。
主节点 NameNode 存储元数据和映射,维护命名空间。
从节点 DataNode 存储具体文件数据,接口用户对文件的具体操作,定期向NN发送自己数据块的列表(块对应具体文件的一部分)。
其他信息
数据块(128M)存储文件的一部分,文件会分成块存储。
复制因子 数据块的备份,数量一般为3。用于缓解访问单数据块的缓慢。
fsimage文件用于记录NN中的映射信息,例如某文件在哪些DN的哪些数据块中
edits文件用于记录NN中的元数据操作信息,例如读写了哪些文件
安全模式(无法进行任何对块的操作) NN开启时会检查所有数据块的复制因子,满足复制因子数量的块达到一定比例便会退出安全模式。退出后,将不满足的块复制到其他DN满足条件。如果达不到比例,手动关闭安全模式,可调比例等。
HDFS 的shell操作的命令类似与linux的操作命令,但又有格式上的不同。
输入hadoop fs -help便可查看所有命令详细格式。
API的编写
代码块
package com.hadoop.hdfs.api.test;
import java.io.IOException;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
public class HDFSAPITest {
FileSystem fileSystem=null;
@Before
public void init(){
// TODO Auto-generated method stub
System.out.println("1");
Configuration conf=new Configuration();
try{
//连接hdfs类型的虚拟机
URI