hadoop-HDFS

HDFS文件快大小不能设置太小(会增加寻址时间,程序一直在找块的开始位置)

也不能设置太大(不利于后续并行操作)

HDFS块的大小设置主要取决于磁盘的传输速率

hadoop fs 具体命令就相当于cilent对其进行操作

[xwt@hadoop102 hadoop]$ hdfs dfs -ls /
#查看 hdfs创建的文件夹

[xwt@hadoop102 ~]$ hadoop fs -mkdir /sanguo
#因为我们之前创建的文件夹就在根目录下(前面/)

上传

1)-moveFromLocal:从本地剪切粘贴到HDFS

[xwt@hadoop102 hadoop-3.1.3]$ hadoop fs -moveFromLocal ./shuguo.txt /sanguo

2)-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去

[xwt@hadoop102 hadoop-3.1.3]$ hadoop fs -copyFromLocal ./weiguo.txt /sanguo

3)-put:等同于copyFromLocal,生产环境更习惯用put

#./表示当前文件
[xwt@hadoop102 hadoop-3.1.3]$ hadoop fs -put ./wuguo.txt /sanguo

4)-appendToFile:追加一个文件到已经存在的文件末尾(即把文件A的内容追加到文件B当中)

下载

-ls: 显示目录信息
-cat:显示文件内容
-chgrp、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限
-mkdir:创建路径
-cp:从HDFS的一个路径拷贝到HDFS的另一个路径
-mv:在HDFS目录中移动文件
-rm -r:递归删除目录及目录里面内容
 hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

HDFS的API操作 (祥见project1)    (alt+enter 抛异常,ctrl+p 参数提示  ctrl+alt+f变为私有变量)

HDFS的API操作 (一般不会用到)

在IDEA中创建一个Maven工程HdfsClientDemo,并导入相应的依赖坐标+日志添加

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.3</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.30</version>
    </dependency>
</dependencies>

在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入

log4j.rootLogger=INFO, stdout  
log4j.appender.stdout=org.apache.log4j.ConsoleAppender  
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout  
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.logfile=org.apache.log4j.FileAppender  
log4j.appender.logfile.File=target/spring.log  
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout  
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

创建包名:com.atguigu.hdfs

创建HdfsClient类

package com.xwt.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;

/**
 * 客户端代码常用套路
 * 1、获取一个客户端对象
 * 2、执行相关的操作命令
 * 3、关闭资源
 */
public class HdfsClient {

    private FileSystem fs;

    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        //1、获取一个客户端对象
        //内部通讯端口 连接的集群nn地址
        URI uri = new URI("hdfs://hadoop102:8020");
        //创建一个配置文件
        Configuration configuration = new Configuration();
        configuration.set("dfs.replication", "2");
        //用户
        String user = "xwt";

        //获取到了客户端对象     FileSystem是抽象类,自能调用里面的方法

        fs = FileSystem.get(uri, configuration, user);

    }

    @After
    public void close() throws IOException {
//3、关闭资源
        fs.close();
    }

    @Test
    public void testMkdir() throws URISyntaxException, IOException, InterruptedException {


        //2、执行相关的操作命令
        fs.mkdirs(new Path("/xiyou/huaguoshan"));
    }
    //上传

    /**
     * 参数优先级
     * hdfs-default.xml=>hdfs-site.xml=>在项目资源目录下配置的hdfs-site.xml=>代码里面的配置
     */
    @Test
    public void testPut() throws IOException {
        //参数解读  删除原数据  是否允许覆盖  源数据路径  目的路径                     这里\\其中一个\代表转义
        fs.copyFromLocalFile(false, true, new Path("D:\\huaguoshan\\sunwukong.txt"), new Path("/xiyou/huaguoshan"));
    }

    //文件下载
    @Test
    public void testGet() throws IOException {
        //参数的解读  原文件十分偶删除  原文件路径Hdfs   目标地址路径Win
        fs.copyToLocalFile(false, new Path("/xiyou/huaguoshan"), new Path("D:\\"), false);
    }

    //删除
    @Test
    public void testRm() throws IOException {
        //参数解读    要删除的路径   是否递归删除
        //fs.delete(new Path("/xiyou/huaguoshan/sunwukong.txt"),true);
        //删除空目录
        fs.delete(new Path("/xiyou/huaguoshan"), false);
        //删除非空目录
    }

    //文件的更名和移动
    @Test
    public void testMv() throws IOException {
        //参数解读  原文件路径 目标文件路径      文件的移动
        //fs.rename(new Path("/xiyou/huaguoshan/sunwukong.txt"),new Path("/xiyou/huaguoshan/sun.txt"));
        //文件的移动和更名
        //fs.rename(new Path("/xiyou/huaguoshan/sun.txt"),new Path("/kong.txt"));
        //目录更名
        fs.rename(new Path("/xiyou/huaguoshan"), new Path("/xiyou/shuiliandong"));
    }

    //获取文件详细信息
    @Test
    public void fileDetail() throws IOException {
        //路径   是否递归获取      得到的是一个迭代器
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
        //遍历迭代器
        while (listFiles.hasNext()) {
            //每一个文件相关的属性
            LocatedFileStatus fileStatus = listFiles.next();
            System.out.println("==="+fileStatus.getPath()+"===");
            System.out.println(fileStatus.getPermission());
            System.out.println(fileStatus.getOwner());
            System.out.println(fileStatus.getGroup());
            System.out.println(fileStatus.getLen());
            System.out.println(fileStatus.getModificationTime());
            System.out.println(fileStatus.getReplication());
            System.out.println(fileStatus.getBlockSize());
            System.out.println(fileStatus.getPath().getName());
            //获取块信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            //Arrays.toString()打印数组里的值
            System.out.println(Arrays.toString(blockLocations));

        }
    }
    //判断是文件夹还是文件
    @Test
    public void testFile() throws IOException {
        FileStatus[] listStatus = fs.listStatus(new Path("/"));

        for (FileStatus status : listStatus) {
            if (status.isFile()) {
                System.out.println("文件"+status.getPath().getName());
            }else {
                System.out.println("目录"+status.getPath().getName());
            }
            
        }
    }
}

HDFS写数据流程 

 dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。(dn2和dn3相当于副本存储)dn1、dn2、dn3逐级应答客户端。

客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答

当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)

HDFS读数据流程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值