java 能操作 hdfs原理-优快云博客

本文链接：https://blog.youkuaiyun.com/hxsln11/article/details/144590226

具体而言，HDFS 提供了一组 Java 类和接口，用于执行文件操作。例如，FileSystem 类是 HDFS 的核心类之一，它提供了创建、删除、移动和读写文件的方法。因此，如果我们在 Java 程序中实例化一个 FileSystem 对象，便可以通过该对象来操作 HDFS 中的文件。

然而，这仅仅是冰山一角。HDFS 是一个分布式系统，文件被存储在多个节点上。那么，Java 客户端是如何与这些节点进行通信的呢？答案在于 RPC（远程过程调用）。HDFS 的 NameNode 和 DataNode 之间，以及客户端与这些节点之间，都是通过 RPC 进行通信的。

进一步分析，当我们在 Java 程序中执行一个 HDFS 操作，比如写入一个文件时，FileSystem 类的方法会通过 RPC 调用发送请求到 HDFS 的 NameNode。NameNode 会返回文件的元数据，包括数据块的位置信息。随后，FileSystem 类会根据这些信息与一个或多个 DataNode 进行通信，以实际写入数据

这里有一个关键的细节：HDFS 的 Java 客户端实际上是通过 Hadoop 的 Java 库实现的。因此，当我们编写一个 Java 程序来操作 HDFS 时，我们实际上是在使用 Hadoop 项目提供的 Java 类和方法。这些类和方法封装了与 NameNode 和 DataNode 通信的复杂性，使得我们可以像操作普通文件系统一样操作 HDFS。

总结一下，Java 操作 HDFS 的原理可以概括为以下几点：

HDFS Java API：HDFS 提供了一组 Java 类和接口，用于执行文件操作。
RPC 通信：Java 客户端通过 RPC 与 HDFS 的 NameNode 和 DataNode 进行通信。
封装的复杂性：Hadoop 的 Java 库封装了与 HDFS 节点通信的复杂性，使得 Java 程序可以像操作普通文件系统一样操作 HDFS。

pom.xml 中依赖的jar 都存放在

C:\Users\lenovo\.m2\repository

补充说明下

比如log4j.properties

因此，resources目录在Hadoop项目中的作用不仅在于存储配置文件，还确保这些配置文件能够被正确地分发和使用，从而保证Hadoop集群的正常运行。
总结一下，在 Hadoop 项目中，resources 目录用于存储 Hadoop 守护进程所需的配置文件。在构建过程中，这些文件被复制到 Hadoop 安装的 etc/hadoop 目录中，确保在运行时正确加载配置。
加载到 /opt/module/hadoop-3.1.3/etc/hadoop 这个目录下面然后再运行?