HDFS文件快大小不能设置太小(会增加寻址时间,程序一直在找块的开始位置)
也不能设置太大(不利于后续并行操作)
HDFS块的大小设置主要取决于磁盘的传输速率
hadoop fs 具体命令就相当于cilent对其进行操作
[xwt@hadoop102 hadoop]$ hdfs dfs -ls /
#查看 hdfs创建的文件夹
[xwt@hadoop102 ~]$ hadoop fs -mkdir /sanguo
#因为我们之前创建的文件夹就在根目录下(前面/)
上传
1)-moveFromLocal:从本地剪切粘贴到HDFS
[xwt@hadoop102 hadoop-3.1.3]$ hadoop fs -moveFromLocal ./shuguo.txt /sanguo
2)-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去
[xwt@hadoop102 hadoop-3.1.3]$ hadoop fs -copyFromLocal ./weiguo.txt /sanguo
3)-put:等同于copyFromLocal,生产环境更习惯用put
#./表示当前文件
[xwt@hadoop102 hadoop-3.1.3]$ hadoop fs -put ./wuguo.txt /sanguo
4)-appendToFile:追加一个文件到已经存在的文件末尾(即把文件A的内容追加到文件B当中)
下载
-ls: 显示目录信息
-cat:显示文件内容
-chgrp、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限
-mkdir:创建路径
-cp:从HDFS的一个路径拷贝到HDFS的另一个路径
-mv:在HDFS目录中移动文件
-rm -r:递归删除目录及目录里面内容
hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt
HDFS的API操作 (祥见project1) (alt+enter 抛异常,ctrl+p 参数提示 ctrl+alt+f变为私有变量)
HDFS的API操作 (一般不会用到)
在IDEA中创建一个Maven工程HdfsClientDemo,并导入相应的依赖坐标+日志添加
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.30</version>
</dependency>
</dependencies>
在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
创建包名:com.atguigu.hdfs
创建HdfsClient类
package com.xwt.hdfs;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;
/**
* 客户端代码常用套路
* 1、获取一个客户端对象
* 2、执行相关的操作命令
* 3、关闭资源
*/
public class HdfsClient {
private FileSystem fs;
@Before
public void init() throws URISyntaxException, IOException, InterruptedException {
//1、获取一个客户端对象
//内部通讯端口 连接的集群nn地址
URI uri = new URI("hdfs://hadoop102:8020");
//创建一个配置文件
Configuration configuration = new Configuration();
configuration.set("dfs.replication", "2");
//用户
String user = "xwt";
//获取到了客户端对象 FileSystem是抽象类,自能调用里面的方法
fs = FileSystem.get(uri, configuration, user);
}
@After
public void close() throws IOException {
//3、关闭资源
fs.close();
}
@Test
public void testMkdir() throws URISyntaxException, IOException, InterruptedException {
//2、执行相关的操作命令
fs.mkdirs(new Path("/xiyou/huaguoshan"));
}
//上传
/**
* 参数优先级
* hdfs-default.xml=>hdfs-site.xml=>在项目资源目录下配置的hdfs-site.xml=>代码里面的配置
*/
@Test
public void testPut() throws IOException {
//参数解读 删除原数据 是否允许覆盖 源数据路径 目的路径 这里\\其中一个\代表转义
fs.copyFromLocalFile(false, true, new Path("D:\\huaguoshan\\sunwukong.txt"), new Path("/xiyou/huaguoshan"));
}
//文件下载
@Test
public void testGet() throws IOException {
//参数的解读 原文件十分偶删除 原文件路径Hdfs 目标地址路径Win
fs.copyToLocalFile(false, new Path("/xiyou/huaguoshan"), new Path("D:\\"), false);
}
//删除
@Test
public void testRm() throws IOException {
//参数解读 要删除的路径 是否递归删除
//fs.delete(new Path("/xiyou/huaguoshan/sunwukong.txt"),true);
//删除空目录
fs.delete(new Path("/xiyou/huaguoshan"), false);
//删除非空目录
}
//文件的更名和移动
@Test
public void testMv() throws IOException {
//参数解读 原文件路径 目标文件路径 文件的移动
//fs.rename(new Path("/xiyou/huaguoshan/sunwukong.txt"),new Path("/xiyou/huaguoshan/sun.txt"));
//文件的移动和更名
//fs.rename(new Path("/xiyou/huaguoshan/sun.txt"),new Path("/kong.txt"));
//目录更名
fs.rename(new Path("/xiyou/huaguoshan"), new Path("/xiyou/shuiliandong"));
}
//获取文件详细信息
@Test
public void fileDetail() throws IOException {
//路径 是否递归获取 得到的是一个迭代器
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
//遍历迭代器
while (listFiles.hasNext()) {
//每一个文件相关的属性
LocatedFileStatus fileStatus = listFiles.next();
System.out.println("==="+fileStatus.getPath()+"===");
System.out.println(fileStatus.getPermission());
System.out.println(fileStatus.getOwner());
System.out.println(fileStatus.getGroup());
System.out.println(fileStatus.getLen());
System.out.println(fileStatus.getModificationTime());
System.out.println(fileStatus.getReplication());
System.out.println(fileStatus.getBlockSize());
System.out.println(fileStatus.getPath().getName());
//获取块信息
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
//Arrays.toString()打印数组里的值
System.out.println(Arrays.toString(blockLocations));
}
}
//判断是文件夹还是文件
@Test
public void testFile() throws IOException {
FileStatus[] listStatus = fs.listStatus(new Path("/"));
for (FileStatus status : listStatus) {
if (status.isFile()) {
System.out.println("文件"+status.getPath().getName());
}else {
System.out.println("目录"+status.getPath().getName());
}
}
}
}
HDFS写数据流程
dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。(dn2和dn3相当于副本存储)dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答。
当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)