HDFS是Hadoop程序中主要使用的文件分布系统,HDFS集群主要由管理文件系统元数据的NameNode和实际存储数据的DataNode组成的
HDFS架构图描述了NameNode和DataNode客户端之间的基本交互,客户端联系NameNode对文件和元数据进行修改。并直接使用DataNode执行实际的文件 I /O
Hadoop支持Xshell命令直接与HDFS进行操作,同时也支持Java API对HDFS进行文件的创建 修改 删除 下载 上传等操作。
使用Java API操作 HDFS主要涉及到以下几个类:
Configuration 提供了我们对配置参数的访问
FileSystem FileSystem基于Configuration创建FileSystem对象,为了调用FileSystem里面的相关方法对应具体的(上传 创建 删除 下载等一系列对HDFS文件系统的操作)
path 在FileSystem中提供文件的路径和命名文件
FSDataInputStream和FSDataOutputStream 这两个分别是HDFS中的输入和输出流
下列是 JAVA API具体操作HDFS过程
我们首先创建一个Maven项目,在Po