具体而言,HDFS 提供了一组 Java 类和接口,用于执行文件操作。例如,FileSystem
类是 HDFS 的核心类之一,它提供了创建、删除、移动和读写文件的方法。因此,如果我们在 Java 程序中实例化一个 FileSystem
对象,便可以通过该对象来操作 HDFS 中的文件。
然而,这仅仅是冰山一角。HDFS 是一个分布式系统,文件被存储在多个节点上。那么,Java 客户端是如何与这些节点进行通信的呢?答案在于 RPC(远程过程调用)。HDFS 的 NameNode 和 DataNode 之间,以及客户端与这些节点之间,都是通过 RPC 进行通信的。
进一步分析,当我们在 Java 程序中执行一个 HDFS 操作,比如写入一个文件时,FileSystem
类的方法会通过 RPC 调用发送请求到 HDFS 的 NameNode。NameNode 会返回文件的元数据,包括数据块的位置信息。随后,FileSystem
类会根据这些信息与一个或多个 DataNode 进行通信,以实际写入数据
这里有一个关键的细节:HDFS 的 Java 客户端实际上是通过 Hadoop 的 Java 库实现的。因此,当我们编写一个 Java 程序来操作 HDFS 时,我们实际上是在使用 Hadoop 项目提供的 Java 类和方法。这些类和方法封装了与 NameNode 和 DataNode 通信的复杂性,使得我们可以像操作普通文件系统一样操作 HDFS。
总结一下,Java 操作 HDFS 的原理可以概括为以下几点:
- HDFS Java API:HDFS 提供了一组 Java 类和接口,用于执行文件操作。
- RPC 通信:Java 客户端通过 RPC 与 HDFS 的 NameNode 和 DataNode 进行通信。
- 封装的复杂性:Hadoop 的 Java 库封装了与 HDFS 节点通信的复杂性,使得 Java 程序可以像操作普通文件系统一样操作 HDFS。
pom.xml 中依赖的jar 都存放在
C:\Users\lenovo\.m2\repository
补充说明下
比如log4j.properties
因此,resources目录在Hadoop项目中的作用不仅在于存储配置文件,还确保这些配置文件能够被正确地分发和使用,从而保证Hadoop集群的正常运行。
总结一下,在 Hadoop 项目中,resources 目录用于存储 Hadoop 守护进程所需的配置文件。在构建过程中,这些文件被复制到 Hadoop 安装的 etc/hadoop 目录中,确保在运行时正确加载配置。
加载到 /opt/module/hadoop-3.1.3/etc/hadoop 这个目录下面然后再运行?