HDFS操作

1、查看hdfs文件路径
hadoop fs -ls /
2、创建新文件路径
hadoop fs -mkdir <file路径>
3、复制文件:原本路径下的文件仍然存在
hadoop fs -cp <被复制文件地址> <目的路径>
eg: hadoop fs -cp /data/a/model /data/a/b
4、重命名
复制后在删除原文件
(1)先复制 hadoop fs -cp /data/a/model_pro /data/b/model_pro_test
(2)删除原文件
hadoop fs -rm -r /User/a/sh_model
hadoop fs -rm -r -skipTrash /data/b/model_pro
5、移动,原本路径下的文件移走便不存在了
hadoop fs -mv <被复制文件地址> <目的路径>

### HDFS 操作指南 HDFS(Hadoop Distributed File System)是一种分布式文件系统,设计用于大规模数据存储和处理。以下是关于 HDFS 操作的相关信息和教程。 #### 1. HDFS 文件系统的初始化与配置 HDFS操作依赖于配置文件中的参数设置,例如 `fs.defaultFS`,它指定了 HDFS 的默认名称节点地址[^1]。在初始化 HDFS 文件系统对象时,`FileSystem.get()` 方法会根据配置文件中的 `fs.defaultFS` 参数来判断需要实例化的客户端类,并返回一个 `DistributedFileSystem` 的实例[^3]。 ```java Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://namenode:8020"); FileSystem fs = FileSystem.get(conf); ``` #### 2. 文件的基本操作 HDFS 提供了多种文件操作方法,包括创建、读取、删除和检查文件是否存在等。以下是一些常见的文件操作示例: - **检查文件是否存在** 使用 `FileSystem.exists(Path)` 方法可以检查指定路径下的文件或目录是否存在[^3]。 ```java Path hdfsPath = new Path("/user/data/example.txt"); boolean exists = fs.exists(hdfsPath); ``` - **创建文件** 使用 `FileSystem.create(Path)` 方法可以创建一个新的文件并写入内容。 ```java FSDataOutputStream outputStream = fs.create(new Path("/user/data/newfile.txt")); outputStream.writeBytes("Hello, HDFS!"); outputStream.close(); ``` - **读取文件** 使用 `FileSystem.open(Path)` 方法可以打开一个文件并读取其内容。 ```java FSDataInputStream inputStream = fs.open(new Path("/user/data/example.txt")); BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream)); String line; while ((line = reader.readLine()) != null) { System.out.println(line); } reader.close(); ``` - **删除文件** 使用 `FileSystem.delete(Path, boolean)` 方法可以删除文件或目录。如果第二个参数为 `true`,则递归删除目录及其内容。 ```java fs.delete(new Path("/user/data/oldfile.txt"), true); ``` #### 3. 数据平衡操作 为了确保 HDFS 集群的存储负载均衡,HDFS 提供了 `balancer` 命令。该命令通过以下步骤实现数据的重新分布[^4]: - 名称节点生成 DataNode 数据分布分析报告。 - 汇总需要移动的数据分布情况,计算具体数据块迁移路线图。 - 开始数据块迁移任务,确保网络内最短路径。 - 将复制的数据块复制到目标 DataNode 上。 - 删除原始数据块。 - 确认数据块迁移完成。 执行 `balancer` 命令的语法如下: ```bash hdfs balancer [-threshold <value>] ``` 其中,`-threshold` 参数表示集群中允许的最大不平衡比例,默认值为 10%。 #### 4. 其他常用命令 除了上述操作外,HDFS 还支持许多其他常用命令,例如列出目录内容、修改文件权限等。以下是一些常用的 HDFS Shell 命令: - 列出目录内容:`hdfs dfs -ls /user/data` - 创建目录:`hdfs dfs -mkdir -p /user/data/newdir` - 修改文件权限:`hdfs dfs -chmod 755 /user/data/file.txt` - 复制本地文件到 HDFS:`hdfs dfs -put localfile.txt /user/data/hdfsfile.txt` - 从 HDFS 下载文件到本地:`hdfs dfs -get /user/data/hdfsfile.txt localfile.txt` #### 5. HDFS API 参考 更多关于 HDFS 的详细操作指南可以参考官方文档或相关项目地址[^2]。此外,HDFS 的源代码托管在以下地址,开发者可以通过阅读源码进一步了解其实现细节: ```plaintext https://gitcode.com/gh_mirrors/had/hadoop-hdfs ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值